﻿François Chollet Învățare profundă cu Python FRANQOIS CHOLLET u MAN NI NG Shelter Island François Chollet ^PP №' Sankt Petersburg • Moscova • Ekaterinburg • Voronezh Nijni Novgorod • Rostov-pe-Don * Samara • Minsk BBK - UDC Sh Chollet Francois Ш Învățare profundă în Python - Sankt Petersburg: Peter, - p : ill - (Seria "Biblioteca programatorului"), ISBN - - - - Învățare profundă - Învățare profundă este un set de algoritmi de învățare automată care modelează abstracții la nivel înalt în date folosind arhitecturi compuse din multe transformări neliniare De acord, această frază sună amenințătoare Dar totul nu este atât de înfricoșător dacă Francois Chollet, care a creat Keras, cea mai puternică bibliotecă pentru lucrul cu rețele neuronale, vorbește despre învățarea profundă Explorați învățarea profundă cu exemple practice dintr-o mare varietate de domenii Cartea este împărțită în două părți: prima oferă bazele teoretice, a doua este dedicată rezolvării unor probleme specifice Acest lucru vă va permite nu numai să înțelegeți elementele de bază ale DL, ci și să învățați cum să utilizați noile funcții în practică Învățarea este o călătorie pe tot parcursul vieții, mai ales în domeniul inteligenței artificiale, unde există mult mai multe necunoscute decât certitudini + (În conformitate cu Legea federală din decembrie nr -FZ ) BBK - UDC Drepturile de publicare sunt obținute prin acord cu Mappipd Toate drepturile rezervate Nicio parte a acestei cărți nu poate fi reprodusă sub nicio formă fără permisiunea scrisă a deținătorilor drepturilor de autor Editorul nu este responsabil pentru disponibilitatea materialelor la care se face referire în această carte La momentul pregătirii cărții pentru publicare, toate linkurile către resursele de pe Internet erau valabile ISBN - ISBN - - - - (c) de Mapping Publications Co Drepturi AI rezervate (c) Traducere în rusă Editura LLC "Peter", (c) Ediție în limba rusă, proiectată de Editura Piter LLC, (c)Seria Programator's Library, rezumat PARTEA I BAZELE ÎNVĂȚĂRII PROFUNDE Capitolul Ce este învățarea profundă? Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale Capitolul Noțiuni introductive despre rețelele neuronale Capitolul Fundamentele învățării automate PARTEA II ÎNVĂȚAREA PROFUNDĂ ÎN PRACTICĂ Capitolul Învățare profundă în tehnologiile computerizate Capitolul Învățare profundă pentru text și secvențe Capitolul Cele mai bune practici avansate de învățare profundă Capitolul Învățare profundă generativă Capitolul Concluzie Anexa A Instalarea Keras și dependențele sale de Ubuntu Anexa B: Rularea notebook-ului Jupyter pe o instanță GPU EC Cuprins Cuvânt înainte Mulțumiri Despre această carte Cui i se adresează această carte Conținutul cărții Cerințe software/hardware Sursa Forum de carte De la editor Despre autor Despre ilustrația de copertă PARTEA I BAZELE ÎNVĂȚĂRII PROFUNDE Capitolul Ce este învățarea profundă? Inteligenta artificiala, invatare automata si deep learning T Inteligența artificială T Învățare automată Instruire de prezentare "Adancime" de învățare profundă Cum funcționează învățarea profundă în trei imagini În ce stadiu de dezvoltare a ajuns învățarea profundă Cuprins Nu crede reclamele Perspective ale IA Înainte de Deep Learning: O scurtă istorie a Machine Learning Modelare probabilistică Primele rețele neuronale Metode nucleare Arbori de decizie, păduri aleatorii și creșterea gradului Înapoi la Rețele neuronale Caracteristici distinctive ale învățării profunde Peisajul modern al învățării automate De ce învățare profundă? De ce acum? Echipamente Date Algoritmi Un nou val de investiții Democratizarea învățării profunde Ar trebui să ne așteptăm ca această tendință să continue? Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale Prima cunoaștere cu rețeaua neuronală Reprezentarea datelor pentru rețelele neuronale Scalari (Tensori de rang zero) Vectorii (tensorii primului rang) Matrici (tensori de rangul doi) Tensorii rangurilor trei și superioare Atribute cheie Manipularea tensoarelor cu Numpy Pachete de date Exemple practice de tensori cu date Date vectoriale Serii sau secvențe de timp Cuprins Imagini Video Angrenaje ale rețelelor neuronale: operații cu tensori Operații element cu element Extensie Produsul scalar al tensoarelor Schimbarea formei unui tensor Interpretarea geometrică a operaţiilor cu tensori Interpretarea geometrică a învăţării profunde Motor de rețea neuronală: optimizare bazată pe gradient Ce este un derivat? Derivată a operaţiilor tensorilor: Gradient Coborâre a gradientului stocastic Combinarea derivatelor: Algoritmul de backpropagation erori Privind înapoi la primul exemplu Scurt rezumat al capitolului Capitolul Noțiuni introductive despre rețelele neuronale Anatomia unei rețele neuronale Straturi: Elementele de bază ale învățării profunde Modele: Rețele de straturi Funcții de pierdere și optimizatori: chei pentru reglarea procesului Instruire Introducere în Keras Keras, TensorFlow, Theano și CNTK Dezvoltarea cu Keras: O scurtă privire de ansamblu Configurarea unei stații de lucru Deep Learning Jupyter Notebook: modalitatea preferată de a conduce Experimente de învățare profundă Pregătirea Keras: Două opțiuni Desfășurarea lucrărilor de învățare profundă în cloud: argumente pro și contra Alegerea unui GPU pentru învățare profundă Cuprins Clasificarea recenziilor de film: un exemplu de clasificare binară Setul de date IMDB Pregătirea datelor Proiectarea unei rețele Verificarea soluției Utilizarea unei rețele instruite pentru predicții pe date noi Experimente ulterioare Rezumat Clasificarea fluxului de știri: un exemplu de clasificare în mai multe clase Setul de date Reuters Pregătirea datelor Proiectarea unei rețele Verificarea soluției Predictii asupra datelor noi O altă modalitate de a gestiona marcajele și pierderile Importanța utilizării suficient de mari Straturi intermediare Experimente ulterioare Rezumând Prezicerea prețurilor caselor: un exemplu de regresie Set de date privind prețurile caselor din Boston Pregătirea datelor Proiectarea unei reţele Evaluarea soluției prin metoda de validare încrucișată pentru K blocuri FROM Rezumând Scurt rezumat al capitolului Capitolul Fundamentele învățării automate Cele patru secțiuni ale învățării automate Învățare supravegheată Învățare nesupravegheată Cuprins Învățare autosupravegheată Consolidarea învățării Evaluarea modelelor de învățare automată Seturi de date de instruire, validare și control Lucruri importante de reținut Procesarea datelor, ingineria caracteristicilor și învățarea caracteristicilor Preprocesarea datelor pentru rețele neuronale Construcția caracteristicilor Supraantrenarea și subantrenarea Reducerea dimensiunii rețelei Adăugarea unei regularizări a greutăților Adăugarea de rărire Proces generalizat pentru rezolvarea problemelor de învățare automată Definirea unei sarcini și crearea unui set de date Alegerea unei măsuri de succes Selectarea unui protocol de evaluare Pregătirea preliminară a datelor Dezvoltarea unui model mai avansat decât cazul de bază Scalare verticală: Dezvoltare model cu recalificare Regularizarea modelului și reglarea hiperparametrului Scurt rezumat al capitolului PARTEA II ÎNVĂȚAREA PROFUNDĂ ÎN PRACTICĂ Capitolul Învățare profundă în viziunea computerizată Introducere în rețelele neuronale convoluționale Operația de colaps Selectarea valorii maxime din vecină (max-pooling) Antrenarea unei rețele neuronale convoluționale de la zero la scară mică set de date Adecvarea învățării profunde pentru rezolvarea problemelor cu seturi mici de date Cuprins Încărcarea datelor Proiectarea unei rețele Preprocesarea datelor Extensie de date Folosind o rețea neuronală convoluțională pre-antrenată Extragerea caracteristicilor Formare continuă Rezumă Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională Vizualizarea activărilor intermediare Vizualizarea filtrelor în rețelele neuronale convoluționale Vizualizarea hărților de căldură de activare a clasei Scurt rezumat al capitolului Capitolul Învățare profundă pentru text și secvențe Lucrul cu date text Codificarea directă a cuvintelor și caracterelor Reprezentarea vectorială a cuvintelor Pune totul împreună: de la sursă la text vectorial reprezentarea cuvintelor Rezumat Rețele neuronale recurente Stratul recurent în Keras Straturi LSTM și GRU Un exemplu de utilizare a unui strat LSTM de la Keras Rezumat Metode îmbunătățite de utilizare a rețelelor neuronale recurente Problemă de predicție a temperaturii Pregătirea datelor Soluție de bază fără machine learning Soluție de bază folosind Machine Learning Prima soluție recursivă de bază Cuprins Folosind subțierea recurentă pentru a lupta cu recalificare Stivuirea mai multor straturi recurente unele peste altele Folosind bidirecțional recurent rețele neuronale Ce urmeaza Rezumat Procesarea secvențelor cu convoluții rețele neuronale Prelucrarea datelor seriale cu unidimensional Rețeaua neuronală convoluțională Selectarea valorilor învecinate în unidimensional Secvențe de date Implementarea unei reţele convoluţionale unidimensionale Combinarea rețelelor convoluționale și recurente pentru procesare secvenţe lungi Rezumat Scurt rezumat al capitolului Capitolul Cele mai bune practici avansate de învățare profundă Dincolo de modelul secvențial: API-ul funcțional Keras Introducere în API-ul funcțional Modele cu mai multe intrări Modele de prize multiple Grafice de nivel aciclice dirijate Reutilizarea instanțelor de strat Modele ca straturi Rezumând Explorarea și monitorizarea modelelor de învățare profundă folosind apeluri Keras și TensorBoard Utilizarea apelurilor inverse pentru a influența modelul în cursul pregătirii Introducere în TensorBoard: Cadrul de vizualizare TensorFlow Rezumând Cuprins Profitați la maximum de modelele dvs Modele de arhitectură îmbunătățite Optimizarea hiperparametrului Modele de ansamblu Rezumat Scurt rezumat al capitolului Capitolul Învățare profundă generativă Generarea textului cu LSTM O scurtă istorie a rețelelor recurente generative Cum sunt generate secvențele de date? Importanţa unei strategii de selecţie Implementarea generării de text caracter cu caracter pe baza LSTM Rezumat DeepDream Implementarea DeepDream în Keras Rezumat Transferul stilului neuronal Funcția de pierdere a conținutului Funcția de pierdere a stilului Transferul stilului neuronal în Keras Rezumat Generarea imaginilor cu autocodificatoare variaționale Selectarea șabloanelor din spațiile de imagine ascunse Vectori conceptuali pentru editarea imaginilor Autoencodere variaţionale Rezumat Introducere în rețelele adversare generative Implementarea celei mai simple reţele generative adversare Un set de trucuri Generator Discriminator Cuprins Rețeaua adversară Cum se antrenează o rețea DCGAN Rezumat Scurt rezumat al capitolului Capitolul Concluzie Scurtă prezentare a conceptelor cheie Diferite abordări ale IA Ceea ce face ca învățarea profundă să fie diferită de alte abordări la învățarea automată Înțelegerea învățării profunde Tehnologii cheie Proces generalizat de învățare automată Arhitecturi de bază de rețea Spaţiul Oportunităţilor Limitările învățării profunde Riscul umanizării modelelor de învățare profundă Generalizare locală şi extremă Rezumat Viitorul învățării profunde Modele ca programe Dincolo de algoritmul de backpropagation și straturi diferențiabile Învățare automată a mașinii Învățare continuă și reutilizare modulară subprograme Perspectivă pe termen lung Cum să ții pasul cu progresul într-un domeniu în creștere rapidă Soluții practice la probleme reale pe site-ul Kaggle Cunoașterea ultimelor evoluții de pe site-ul arXiv Explorarea ecosistemului Keras Observaţii de încheiere Cuprins Anexa A Instalarea Keras și dependențele sale pe Ubuntu A Instalarea pachetelor de calcul științific pentru Python A Configurarea suportului GPU A Z Instalarea Theano (Opțional) A Instalarea Keras Anexa C: Rularea notebook-ului Jupyter pe o instanță GPU EC B Ce este Jupyter Notebook? De ce să rulați Jupyter Notebook pe GPU-uri AWS? LA Când nu este de dorit să utilizați Jupyter pe AWS pentru învățare profundă? V Z Configurarea unei instanțe GPU AWS B Configurarea Jupyter LA Instalarea Keras LA Configurarea redirecționării portului local LA Accesarea Jupyter dintr-un browser de pe un computer local Cartea lui François Chollet "Deep Learning in Python a fost cumpărată" pentru ruble pe site-ul web de afaceri deschis hyde cuvânt înainte Dacă ați ales această carte, atunci probabil că ați auzit despre descoperirea recentă a tehnicilor de învățare profundă în domeniul inteligenței artificiale (AI) În doar cinci ani, am trecut de la recunoașterea aproape inutilă a imaginii și a vorbirii la soluții incredibil de eficiente la aceste probleme Consecințele acestui progres brusc s-au reflectat în aproape toate industriile Totuși, pentru a începe implementarea tehnologiei de deep learning în toate problemele care pot fi rezolvate prin aplicarea acesteia, trebuie să o punem la dispoziția cât mai multor persoane, inclusiv nespecialiști, adică celor care nu sunt ingineri de cercetare sau absolvenți elevi Pentru a debloca întregul potențial al învățării profunde, trebuie să-l democratizăm pe deplin Când am lansat prima versiune a Keras, un cadru de învățare profundă, în martie , nu m-am gândit la democratizarea inteligenței artificiale Am cercetat învățarea automată de câțiva ani și am creat Keras pentru a mă ajuta să experimentez Cu toate acestea, în cursul anilor și , zeci de mii de oameni noi au descoperit domeniul învățării profunde; mulți dintre ei au ales Keras pentru că a fost - și este încă - cel mai simplu cadru pentru începători Am văzut cum zeci de începători folosesc Keras în cele mai neașteptate și destul de puternice moduri, apoi am ajuns la concluzia că trebuie să mă gândesc la accesibilitatea și democratizarea AI Mi-am dat seama că cu cât distribuim mai mult aceste tehnologii, cu atât vor deveni mai valoroase Accesibilitatea a devenit rapid unul dintre obiectivele principale ale Keras, iar de-a lungul anilor, comunitatea de dezvoltatori a reușit să obțină realizări fantastice în această direcție Am "înmânat" literalmente tehnologia de deep learning către zeci de mii de oameni, iar ei, la rândul lor, au folosit-o pentru a rezolva probleme importante despre care nici nu știam că există până de curând Cartea pe care o dețineți este un alt pas în popularizarea învățării profunde Cadrul Keras a avut întotdeauna nevoie de un curs însoțitor care să acopere simultan elementele de bază ale învățării profunde, să prezinte exemple de utilizare a acestuia și să demonstreze cele mai bune practici în aplicarea învățării profunde Mulțumiri învăţare Această carte este cea mai bună încercare a mea la un astfel de curs L-am scris în încercarea de a explica cât mai clar posibil ideile din spatele învățării profunde și implementarea acesteia Acest lucru nu înseamnă că am simplificat în mod deliberat prezentarea - sunt complet sigur că nu este nimic complicat în tema învățării profunde Sper să găsiți această carte utilă și să vă ajute să începeți să construiți aplicații inteligente și să rezolvați problemele care contează pentru dvs openhide biz Mulțumiri Vreau să mulțumesc comunității Keras pentru că m-a ajutat să fac posibilă această carte Proiectul Keras are în prezent câteva sute de dezvoltatori voluntari și peste de utilizatori Contribuția și feedbackul dvs au ajutat să facă din Keras ceea ce este astăzi De asemenea, vreau să mulțumesc Google pentru sprijinul proiectului Keras A fost foarte frumos când Google a decis să folosească Keras ca API de nivel înalt pentru TensorFlow Integrarea perfectă a Keras și TensorFlow aduce beneficii utilizatorilor ambelor produse Combinația dintre TensorFlow și Keras face ca tehnologiile de învățare profundă să fie accesibile unei game largi Aș dori să mulțumesc oamenilor de la Manning care au făcut posibilă această carte: editorului Marjan Vasse și întregului personal editorial și tehnic, inclusiv Christinei Taylor, Janet Vail, Tiffany Taylor Tayiog), Katie Tennant (Katie Tennant), Dottie Marsiko (Dottie) Marsico) și mulți alții, a căror lucrare a fost lăsată în culise Multe mulțumiri recenzenților tehnici conduși de Aleksandar Dragosavljevic: Diego Acuna Rozas, Geoff Barto, David Blumenthal-Barby, Abel Brown, Clark Dorman, Clark Gaylord, Thomas Heiman, Wilson Mage, Sumit Pal, Vladimir Pasman, Gustavo Patino, Peter Rabinovitch, Alvin Raj, Claudio Rodriguez, Srdjan Santic, Richard Tobias, Martin Verzilli, William Wheeler O bibliotecă software deschisă de algoritmi de învățare automată dezvoltată de Google pentru a rezolva problemele construirii și antrenării unei rețele neuronale pentru a căuta și clasifica automat imaginile cu calitatea percepției umane - Notă pe Mulțumiri (William E Wheeler) și Daniel Williams (Daniel Williams) - și toți participanții la forum Ei au căutat neobosit erori tehnice, greșeli de terminologie și greșeli de tipar și au făcut sugestii pentru subiecte Fiecare ciclu de revizuire tehnică și fiecare feedback lăsat pe forum au fost luate în considerare și au influențat manuscrisul Mulțumiri speciale lui Jerry Gaines, care a acționat ca redactor tehnic; Alex Ott și Richard Tobias, care au realizat editarea tehnică a cărții Sunt cei mai buni editori tehnici În cele din urmă, aș dori să-i mulțumesc soției mele Maria pentru sprijinul nesfârșit pe parcursul dezvoltării lui Keras și a acestei cărți Despre această carte Cartea este scrisă pentru oricine dorește să învețe tehnologia de deep learning de la zero sau să-și extindă cunoștințele Inginerii de învățare automată, dezvoltatorii de software și studenții vor găsi multă valoare în aceste pagini Această carte oferă cercetări practice în lumea reală în domeniul învățării profunde Am încercat să evităm formulele matematice, preferând să explicăm conceptele cantitative folosind fragmente de cod și să ne formăm o înțelegere practică a ideilor principale ale învățării automate și profunde Veți vedea peste de exemple de cod cu comentarii detaliate, instrucțiuni și explicații simple și generalizate despre tot ce trebuie să știți pentru a utiliza învățarea profundă pentru a rezolva probleme specifice Exemplele folosesc cadrul Keras de învățare profundă scris în Python și biblioteca TensorFlow ca backend Keras este unul dintre cele mai populare și în creștere rapidă cadre de învățare profundă Este adesea recomandat ca cel mai bun instrument pentru începători pentru a învăța învățarea profundă După ce ați citit această carte, veți avea o înțelegere clară a ceea ce este învățarea profundă, când este aplicabilă și ce limitări are Veți fi introdus în procesul standard de interpretare și rezolvare a problemelor de învățare automată și veți învăța cum să faceți față problemelor comune Veți învăța cum să utilizați Keras pentru a rezolva probleme practice, de la recunoașterea modelelor la procesarea limbajului natural: clasificarea imaginilor, predicția temporală, analiza emoțiilor, generarea de imagini și text și multe altele Pentru cine este această carte? Această carte este scrisă pentru persoanele cu experiență de programare Python care doresc să înceapă în învățarea automată cu tehnologia de deep learning Cu toate acestea, poate fi util și altor cititori: □ Dacă sunteți un om de știință de date familiarizat cu învățarea automată, această carte vă va oferi o practică destul de completă Despre această carte perspectivă asupra învățării profunde, ramura cu cea mai rapidă creștere a învățării automate □ Dacă sunteți un expert în învățare profundă care dorește să stăpânească cadrul Keras, veți găsi cel mai bun curs intensiv Keras în această carte □ Dacă sunteți un student absolvent care studiază învățarea profundă într-un curs formal, această carte este un plus practic la studiile dvs care vă va ajuta să înțelegeți mai bine cum funcționează rețelele neuronale și vă va prezenta cele mai eficiente tehnici Chiar și persoanele cu mentalitate tehnică care nu codifică în mod regulat vor găsi această carte utilă ca o introducere la conceptele de bază și avansate de învățare profundă Pentru a utiliza Keras, trebuie să fii priceput în Python la un nivel intermediar Familiarizarea cu biblioteca Nunipy ar fi de asemenea utilă, deși acest lucru nu este necesar Experiența în învățarea automată sau în învățarea profundă nu este o condiție prealabilă: această carte acoperă toate elementele esențiale de la zero Nu este obligatoriu să ai vreo pregătire matematică specială - cunoștințele de matematică la nivel de liceu sunt destul de suficiente Conținutul cărții Această carte este în două părți Dacă sunteți nou în învățarea automată, vă recomand să citiți prima parte înainte de a trece la a doua Vom începe cu exemple simple și ne vom apropia treptat de tehnologiile moderne Prima parte este o introducere generalizată în învățarea profundă Aici se formează contextul: sunt date definiții și sunt explicate toate conceptele pe care trebuie să le cunoști pentru a începe să studiezi învățarea automată și rețelele neuronale □ Capitolul oferă context și introduce conceptele de bază ale AI, învățarea automată și învățarea profundă □ Capitolul prezintă conceptele de bază necesare pentru a stăpâni învățarea profundă: tensori, operații cu tensori, coborâre a gradientului și propagarea înapoi a erorii de învățare Acest capitol oferă, de asemenea, primul exemplu de rețea neuronală funcțională □ Capitolul include tot ce aveți nevoie pentru a începe cu rețelele neuronale: o introducere în Keras, un cadru de învățare profundă; ghid de instalare a stației de lucru; precum şi trei exemple fundamentale cu explicaţii detaliate Până la sfârșitul acestui capitol, vei fi învățat cum să antrenezi rețele neuronale simple pentru probleme de clasificare și regresie și vei avea o înțelegere completă a ceea ce se întâmplă în culise în timpul antrenamentului Cerințe software/hardware □ Capitolul explorează procesul canonic de învățare automată Aici veți afla despre capcanele comune și cum să le evitați A doua parte detaliază aplicarea practică a învățării profunde în recunoașterea modelelor și procesarea limbajului natural Multe dintre exemplele prezentate în această parte pot fi folosite ca șabloane pentru rezolvarea problemelor practice în învățarea profundă □ Capitolul analizează o serie de exemple practice de recunoaștere a modelelor, cu un accent deosebit pe clasificarea imaginilor □ Capitolul introduce metode practice de procesare a secvențelor de date precum text și secvențe de timp □ Capitolul include tehnici avansate pentru construirea modelelor moderne de învățare profundă □ Capitolul explică modelele generative sau generative: modele de deep learning care pot crea imagini și text, uneori cu rezultate surprinzător de artistice □ Capitolul este dedicat consolidării a tot ceea ce a fost tratat în capitolele precedente, precum și descrierii perspectivelor de învățare profundă și explorării viitorului probabil Cerințe software/hardware Toate exemplele din această carte folosesc Keras (https://keras io), un cadru de învățare profundă open source disponibil pentru descărcare gratuită Veți avea nevoie de acces la un computer cu un sistem de operare (OS) UNIX; framework-ul poate fi folosit si pe Windows, dar nu il recomand O descriere completă a procesului de configurare este dată în Anexa A Este de preferat ca computerul să fie echipat cu o placă grafică NVIDIA modernă, cum ar fi TITAN X Acest lucru este opțional, dar va ajuta la îmbunătățirea experienței prin accelerarea exemplelor de câteva ori Pentru mai multe informații despre configurarea unei stații de lucru, consultați Secțiunea Dacă nu aveți acces la o stație de lucru cu o placă grafică NVIDIA modernă, puteți utiliza mediul cloud De exemplu, puteți utiliza instanțe Google Cloud (cum ar fi nl-standard- echipate cu GPU-uri NVIDIA Tesla K ) sau instanțele Amazon Web Services (AWS) cu GPU (cum ar fi p xlarge) Anexa C arată o modalitate posibilă de a utiliza o instanță în AWS Cloud cu Jupyter Notebook dintr-un browser Despre această carte Sursă Codul pentru toate exemplele din carte este disponibil pentru descărcare ca Jupyter Notebooks de pe site-ul web al cărții www manning com/books/deep-leaming-with-python și din depozitul GitHub https://github com/fchollet/ deep-learning -cu-python-notebooks Forum de carte Achiziționarea Deep Learning cu Python include acces gratuit la un forum web privat găzduit de Manning Publications, unde puteți comenta cartea, pune întrebări tehnice și obține ajutor de la autor și alți utilizatori Pentru a accesa și a vă înregistra pe forum, deschideți https://forums manning în browserul dvs web com/fomms/deep-leaming-with-python Pentru a afla mai multe despre celelalte forumuri de pe site-ul web Manning și despre reguli, vă rugăm să vizitați https://forums manning com/forums/about Manning se angajează să ofere cititorilor săi un loc de întâlnire în care să poată avea loc un dialog semnificativ între cititorii individuali și între cititori și autor Cu toate acestea, nu există nicio obligație din partea autorului de a acorda o atenție deosebită forumului - prezența sa pe forum rămâne voluntară (și neplătită) Vă sugerăm să-i adresați autorului întrebări stimulatoare pentru ca interesul să nu se estompeze! Forumul și arhivele discuțiilor anterioare vor fi disponibile pe site-ul editurii în timp ce cartea este tipărită De la editor Trimiteți comentariile, sugestiile, întrebările dvs la comp@piter com (editura Peter, ediție computer) Ne-am bucura sa primim vesti de la tine! Consultați site-ul web al editorului www piter com pentru mai multe informații despre cărțile noastre Despre autor (ICLR) și alții François Chollet lucrează la deep learning la Google din Mountain View, California El este creatorul Keras, o bibliotecă de învățare profundă și un participant la proiect în dezvoltarea cadrului de învățare automată TensorFlow De asemenea, face cercetări în învățarea automată, cu accent pe recunoașterea modelelor și aplicarea învățării automate la raționamentul formal A făcut prezentări la conferințe majore în acest domeniu, inclusiv Conferința privind viziunea computerizată și recunoașterea modelelor (CVPR), Conferința și atelierul privind sistemele de procesare a informațiilor neuronale (NIPS), Conferința internațională privind reprezentările învățării Despre ilustrația de copertă Ilustrația de pe coperta "Deep Learning with Python" este intitulată "Dressing a Persian woman in " Este preluat din cartea Collection of the Dresses of Different Nations, Ancient and Modern de Thomas Jefferys, publicată la Londra între și Pagina de titlu precizează că aceasta este o gravură color caligrafică realizată manual, tratată cu gumă arabică Thomas Jefferies ( - ) a fost geograful regelui George al III-lea Cartograf englez, a fost principalul furnizor de hărți ai vremii A gravat și tipărit multe hărți pentru nevoile guvernului, ale altor organisme oficiale și o gamă largă de hărți și atlase comerciale, în special hărți ale Americii de Nord În calitate de cartograf, el a fost interesat de îmbrăcămintea locală a popoarelor care locuiesc pe diferite meleaguri și a adunat o colecție strălucitoare de diverse rochii, descriind-o în patru volume Atractia ținuturilor îndepărtate și a călătoriilor lungi de plăcere a fost un fenomen relativ nou la sfârșitul secolului al XVIII-lea, iar colecțiile ca aceasta au fost destul de populare, deoarece făceau posibilă cunoașterea aspectului locuitorilor din alte țări Varietatea desenelor colectate de Jefferis mărturisește manifestarea individualității strălucitoare și unicității popoarelor lumii în urmă cu de ani De atunci, stilul vestimentar s-a schimbat mult și diversitatea care caracterizează diferite regiuni și țări a dispărut Acum este dificil să distingem prin îmbrăcăminte chiar și locuitorii diferitelor continente Privind-o dintr-un punct de vedere optimist, am sacrificat diversitatea culturală și externă în favoarea unei vieți personale mai bogate sau în favoarea unei activități intelectuale și tehnice mai variate și mai interesante Într-o perioadă în care este greu să deosebești o carte tehnică de alta, Manning ia inițiativa și priceperea în afaceri de a înfrumuseța coperțile cărților cu imagini bazate pe diversitatea bogată a popoarelor de acum două secole, aducând o nouă viață desenelor lui Jefferies PARTEA I Fundamentele învățării profunde Capitolele - ale acestei cărți vă vor oferi o înțelegere de bază a ceea ce este învățarea profundă, unde este aplicată și cum funcționează De asemenea, te vei familiariza cu procesul canonic de rezolvare a problemelor de analiză a datelor folosind metode de deep learning Dacă nu sunteți deja bine versat în deep learning, asigurați-vă că citiți prima parte a cărții de la început până la sfârșit înainte de a trece la descrierea aplicațiilor practice care sunt acoperite în a doua parte Ce s-a întâmplat invatare profunda? Acest capitol acoperă următoarele subiecte: z definiții generalizate ale conceptelor de bază; z istoria dezvoltării învățării automate; z sunt factorii cheie din spatele creșterii învățării profunde și a potențialului acestei discipline în viitor În ultimii ani, subiectul inteligenței artificiale (AI) a generat multă hype în mass-media Învățarea automată, învățarea profundă și inteligența artificială au fost menționate în nenumărate articole, dintre care multe nu au nicio legătură cu descrierile tehnologiei Ni s-a promis apariția unor interlocutori virtuali, mașini cu conducere autonomă și asistenți virtuali Uneori, viitorul a fost pictat în culori sumbre, iar uneori a fost înfățișat ca utopic: eliberarea oamenilor de munca de rutină și efectuarea lucrării principale de către roboți înzestrați cu inteligență artificială Este important ca un viitor sau prezent specialist în domeniul învățării automate să poată izola un semnal util de zgomot, să vadă schimbări în comunicatele de presă hyped care pot afecta cu adevărat lumea Viitorul nostru este în joc și aveți un rol activ de jucat în el: până la sfârșitul acestei cărți, vă veți alătura rândurilor celor care dezvoltă sisteme AI Deci, să luăm în considerare următoarele întrebări: ce a realizat până acum învățarea profundă? cat de important este? în ce direcție va merge dezvoltarea ulterioară? Îți vine să crezi că hype-ul a crescut? Acest capitol pune bazele pentru discuții suplimentare despre AI, învățarea automată și învățarea profundă Inteligența artificială, învățarea automată și învățarea profundă inteligență artificială, mașină și învățarea profundă În primul rând, să definim ce se înțelege prin inteligență artificială Ce este AI, învățarea automată și învățarea profundă (Figura )? Cum sunt ele legate între ele? Orez Inteligență artificială, învățare automată și deep learning Inteligenţă artificială Ideea inteligenței artificiale a început în anii , când un grup de entuziaști din domeniul în curs de dezvoltare al informaticii au întrebat dacă computerele ar putea fi făcute să "gândească", întrebare ale cărei implicații încă le studiem Pe scurt, acest domeniu poate fi definit astfel: automatizarea sarcinilor intelectuale îndeplinite de obicei de oameni În consecință, AI este un domeniu care cuprinde învățarea automată și învățarea profundă, precum și multe abordări non-învățare De exemplu, primele programe de șah funcționau conform regulilor definite rigid și stabilite de programatori și nu puteau fi calificate ca efectuând învățarea automată Multă vreme, mulți experți au crezut că AI la nivel uman ar putea fi creată oferind programatorului un set suficient de reguli explicite pentru a manipula cunoștințele Această abordare, cunoscută sub numele de IA simbolică, a fost paradigma dominantă a IA din anii până la sfârșitul anilor Popularitatea sa a atins apogeul odată cu boom-ul sistemelor expert în anii Inteligența artificială simbolică a fost excelentă în rezolvarea unor probleme logice bine definite, cum ar fi jocul de șah, dar s-a dovedit a fi imposibil să se stabilească reguli stricte pentru sarcini mai complexe și mai neclare, cum ar fi clasificarea imaginilor, recunoașterea vorbirii și traducerea în alte limbi Inteligența artificială simbolică a fost înlocuită cu o nouă abordare: învățarea automată Capitolul Ce este învățarea profundă? Învățare automată Lady Ada Lovelace a locuit în Anglia victoriană, o prietenă și asociată cu Charles Babbage, inventatorul computerului analitic, primul computer mecanic cunoscut Fără îndoială, motorul analitic a fost înaintea timpului său, dar nu a fost conceput ca un computer de uz general când a fost dezvoltat în anii și , deoarece ideea de calcul universal nu se născuse încă Această mașină a făcut pur și simplu posibilă utilizarea operațiilor mecanice pentru automatizarea unor calcule din domeniul analizei matematice, ceea ce a dus la denumirea sa În , Ada Lovelace observa: "Motorul analitic nu poate crea nimic nou Poate face tot ceea ce noi înșine știm să facem scopul său este doar să ne ajute să realizăm ceea ce suntem deja familiarizați Mai târziu, pionierul AI Alan Turing, în celebrul său articol "Computing Machinery and Intelligence" , a numit această remarcă "argumentul Ada Lovelace" În acest articol a fost introdus testul Turing și principalele idei care ar putea duce la crearea de AI Turing a citat-o pe Ada Lovelace gândindu-se la capacitatea computerelor obișnuite de a învăța și de a crea ceva nou și a concluzionat că da, pot Domeniul învățării automate a apărut din întrebarea: poate un computer să depășească "ceea ce știm noi înșine să facem" și să învețe să rezolve singur o problemă specifică? Ne poate surprinde un computer? Fără ajutorul unui programator care stabilește regulile de prelucrare a datelor, poate un computer să determine automat aceste reguli prin examinarea datelor? Această întrebare a deschis ușa către o nouă paradigmă de programare În programarea clasică, în paradigma AI simbolică, oamenii introduc reguli (un program) și date pentru a fi procesate în conformitate cu aceste reguli și primesc răspunsuri (Fig ) În învățarea automată, oamenii introduc date și răspunsuri care se potrivesc cu acele date, iar rezultatul sunt reguli Aceste reguli pot fi apoi aplicate datelor noi pentru a produce răspunsuri originale În învățarea automată, sistemul este mai degrabă antrenat decât programat în mod explicit I se oferă numeroase exemple care sunt relevante pentru problema rezolvată și găsește în aceste exemple o structură statistică care permite sistemului să dezvolte reguli pentru rezolvarea automată a problemei De exemplu, pentru a automatiza sarcina de identificare a fotografiilor făcute în vacanță, puteți alimenta un sistem de învățare automată cu multe exemple de fotografii deja clasificate de oameni, iar sistemul va învăța regulile statistice pentru clasificarea anumitor fotografii "Mașini de calcul și rațiune", o traducere în rusă poate fi găsită la: https://bio wikireadmg ru/ - Notă pe Turing, A M "Computing Machinery and Intelligence", Mind , nr ( ): - Inteligența artificială, învățarea automată și învățarea profundă Reguli Date Date Răspunsuri Programare clasică Învățare automată Răspunsuri Reguli Orez Învățare automată: o nouă paradigmă de programare Perioada de glorie a învățării automate a început abia în anii , dar domeniul a devenit rapid cea mai populară și de succes ramură a inteligenței artificiale, o tendință care a fost întărită de apariția hardware-ului mai rapid și a seturi de date uriașe Învățarea automată este strâns legată de statisticile matematice, dar are câteva diferențe importante Spre deosebire de statistică, învățarea automată se ocupă de obicei cu seturi de date mari și complexe (de exemplu, constând din milioane de fotografii, fiecare dintre ele constând din zeci de mii de pixeli), cărora le este practic imposibil să se aplice metode clasice de analiză statistică, cum ar fi Bayesian metode Drept urmare, învățarea automată și în special învățarea profundă nu au o platformă matematică puternică și se bazează aproape exclusiv pe soluții de inginerie Este o disciplină practică în care ideile sunt mai des dovedite empiric decât teoretic Instruire privind reprezentarea datelor Pentru a defini învățarea profundă și pentru a înțelege diferența dintre învățarea profundă și alte tehnici de învățare automată, trebuie mai întâi să înțelegem ce fac algoritmii de învățare automată S-a remarcat puțin mai mult că învățarea automată dezvăluie regulile pentru rezolvarea problemelor de procesare a datelor folosind exemple de rezultate așteptate Adică, pentru învățarea automată, avem nevoie de trei componente: □ Date de intrare de control - de exemplu, dacă sarcina de recunoaștere a vorbirii este în curs de rezolvare, astfel de date de intrare de control pot fi fișiere cu o înregistrare a vorbirii diferitelor persoane; dacă se rezolvă problema clasificării imaginilor, astfel de date pot fi imagini □ Exemple de rezultate așteptate - într-o sarcină de recunoaștere a vorbirii, acestea pot fi transcripții ale fișierelor audio compilate de oameni; într-o sarcină de clasificare a imaginilor, rezultatul așteptat poate fi etichete precum "câine", "pisică", etc □ O modalitate de evaluare a performanței unui algoritm - aceasta este necesară pentru a determina cât de departe se abate rezultatele returnate de algoritm de cele așteptate Estimarea este utilizată ca semnal de feedback pentru a corecta algoritmul Această etapă de adaptare este ceea ce numim învăţare Capitolul Ce este învățarea profundă? Un model de învățare automată transformă datele de intrare în rezultate semnificative prin "învățare" din exemple cunoscute de intrări și ieșiri Adică, sarcina principală a învățării automate și profunde este transformarea semnificativă a datelor sau, cu alte cuvinte, învățarea să reprezentăm datele de intrare care ne apropie de rezultatul așteptat Înainte de a trece mai departe, să definim ce este o vizualizare de date? În esență, este un mod diferit de a reprezenta sau de a codifica datele De exemplu, o imagine color poate fi codificată în RGB (roșu-verde-albastru - roșu-verde-albastru) sau HSV (hue-saturation-value - hue-saturation-value): acestea sunt două reprezentări diferite ale acelorași date Unele sarcini sunt greu de rezolvat cu date într-o vedere, dar ușor în alta De exemplu, sarcina de a "selecta toți pixelii roșii dintr-o imagine" este mai ușoară cu datele RGB, în timp ce sarcina de a "dezaturare o imagine" este mai ușoară cu datele HSV Sarcina principală a modelelor de învățare automată este tocmai aceea de a găsi reprezentarea adecvată a datelor de intrare - transformări care vor face datele mai potrivite pentru rezolvarea unei probleme precum clasificarea Să trecem la un exemplu concret Luați în considerare un sistem de coordonate cu axele x și y și câteva puncte din acest sistem de coordonate (x, y), așa cum se arată în fig După cum puteți vedea, avem mai multe puncte albe și negre Să presupunem că trebuie să dezvoltăm un algoritm care ia coordonatele (x, y) ale unui punct și returnează cea mai probabilă culoare, negru sau alb În acest caz: □ datele inițiale sunt coordonatele punctelor; □ rezultatul este culoarea punctelor; □ o măsură a calității algoritmului poate fi, de exemplu, procentul de puncte clasificate corect Orez Exemplu unele date În acest caz, trebuie să obținem un nou mod de a reprezenta datele originale, care ne permite să separăm clar punctele albe de cele negre O astfel de transformare, printre altele, ar putea fi o schimbare a sistemului de coordonate, așa cum se arată în Fig : Date inițiale : Schimbarea sistemului de coordonate : Reprezentare mai bună Orez Schimbarea sistemului de coordonate Inteligența artificială, învățarea automată și învățarea profundă Coordonatele punctelor noastre din acest nou sistem de coordonate pot fi numite o nouă reprezentare a datelor Și mai mult succes! Sarcina clasificării datelor "negru/alb" în această reprezentare poate fi redusă la o regulă simplă: "punctele negre au coordonata x > " sau "punctele albe au coordonata x ") etc nu diferă în nimic special; ei caută pur și simplu printr-un set predefinit de operații numit spațiu de ipoteză Adică, din punct de vedere tehnic, învățarea automată este căutarea unei reprezentări semnificative a unor date de intrare într-un spațiu de oportunitate predefinit folosind un semnal de feedback Această idee simplă face posibilă rezolvarea unei game extrem de variate de probleme intelectuale: de la recunoașterea vorbirii până la conducerea automată a unei mașini Acum că v-ați făcut o idee despre ce înseamnă învățarea, haideți să aruncăm o privire la ceea ce este atât de special despre învățarea profundă "Profunzimea" învățării profunde Învățarea profundă este o specialitate a învățării automate: o abordare nouă pentru găsirea reprezentărilor de date care se concentrează pe învățarea straturilor (sau nivelurilor) succesive de reprezentări din ce în ce mai semnificative Profunzimea învățării profunde nu se referă la înțelegerea mai profundă pe care o realizează această abordare; ideea este să stratificați vederea Numărul de straturi în care este împărțit modelul de date se numește adâncimea modelului Alte nume adecvate pentru această zonă a învățării automate ar fi învățarea stratificată și învățarea ierarhică Învățarea profundă modernă implică adesea zeci sau chiar sute de straturi succesive de reprezentare în proces - toate acestea sunt determinate automat sub influența datelor de antrenament Între timp, alte abordări ale învățării automate se concentrează pe învățarea unuia sau a două straturi de reprezentare a datelor; din acest motiv, acestea sunt uneori denumite învățare de suprafață Capitolul Ce este învățarea profundă? În deep learning, astfel de reprezentări stratificate sunt (aproape întotdeauna) învățate folosind modele, așa-numitele rețele neuronale, structurate în straturi suprapuse unul altuia Cu toate acestea, termenul de rețea neuronală este împrumutat din neuroștiință, în timp ce unele dintre ideile de bază ale învățării profunde sunt împrumutate parțial din știința creierului, modelele de învățare profundă nu sunt modele ale creierului Nu există dovezi că creierul implementează mecanisme similare cu cele utilizate în modelele actuale de învățare profundă Este posibil să întâlniți articole științifice populare care susțin că învățarea profundă funcționează ca creierul sau simulează modul în care funcționează creierul, dar în realitate nu este așa Ar fi greșit și contraproductiv să-i facem pe începătorii în acest domeniu să creadă că învățarea profundă este oarecum legată de neuroștiință; nu ai nevoie de ideea "ca creierul nostru" și, de asemenea, poți uita tot ce ai citit despre legătura ipotetică dintre învățarea profundă și biologie Este mult mai productiv să ne gândim la învățarea profundă ca pe o bază matematică pentru învățarea reprezentărilor de date Cum arată reprezentările produse de un algoritm de învățare profundă? Să explorăm cum o rețea care are mai multe straturi în adâncime (Figura ) transformă imaginea unei cifre pentru a o recunoaște Stratul Stratul Stratul Stratul Imaginea de intrare originală DESPRE Rezultat Orez Rețea neuronală profundă pentru clasificarea cifrelor După cum se arată în fig , rețeaua transformă treptat imaginea cifrei într-o reprezentare care este din ce în ce mai diferită de imaginea originală și poartă din ce în ce mai multe informații utile despre rezultat Deep Web-ul poate fi gândit ca o operațiune de curățare a informațiilor în mai multe etape în care informațiile trec printr-o serie de filtre și ies într-o formă purificată (adică într-o formă potrivită pentru rezolvarea unor probleme) Din punct de vedere tehnic, învățarea profundă este o modalitate în mai multe etape de obținere a unei reprezentări a datelor Ideea este simplă, dar după cum se dovedește, mecanismele foarte simple pot părea de neînțeles la o anumită scară si misterioasa Inteligența artificială, învățarea automată și învățarea profundă Performanţă după stratul Performanţă după stratul Performanţă după stratul Orez Reprezentări profunde obținute prin modelul de clasificare cu cifre Cum funcționează învățarea profundă în trei poze Acum știți că esența învățării automate este de a transforma intrarea (cum ar fi imaginile) într-o ieșire (cum ar fi legenda "pisica"), care este dezvăluită prin examinarea multor exemple de intrări și rezultate De asemenea, știți că rețelele neuronale profunde transformă datele de intrare în ieșiri, efectuând o secvență lungă de transformări simple (straturi) și învățați aceste transformări din exemple Acum să vedem cum se întâmplă învățarea Ce face exact un strat cu intrările sale este determinat de greutățile sale, care sunt de fapt un set de numere În limbajul tehnic, putem spune că transformarea implementată de strat este parametrizată de ponderile acestuia (Fig ) (Greutățile sunt uneori denumite și parametri de strat ) În acest context, învățarea înseamnă găsirea unui set de valori de greutate pentru toate straturile din rețea care va mapa corect intrările eșantionului la ieșirile lor corespunzătoare Dar iată chestia: o rețea neuronală profundă poate conține zeci de milioane de parametri Găsirea valorii potrivite pentru fiecare dintre ele poate fi o sarcină descurajantă, mai ales dacă schimbarea valorii unui parametru afectează comportamentul tuturor celorlalți! Pentru a gestiona ceva, mai întâi trebuie să-l poți observa Pentru a controla rezultatul unei rețele neuronale, trebuie să fiți capabil să măsurați cât de departe este acest rezultat de ceea ce vă așteptați Această problemă este rezolvată Capitolul Ce este învățarea profundă? funcția de pierdere a rețelei, numită și funcție obiectiv Funcția de pierdere ia predicția rețelei și valoarea reală (pe care ar fi trebuit să o returneze rețeaua) și calculează o estimare a distanței dintre ele care reflectă cât de bine a funcționat rețeaua în acest exemplu particular (Figura ) Scop: Găsirea valorilor corecte ale tuturor greutăților Intrare X Orez Rețeaua neuronală este parametrizată de greutățile sale Intrare X Orez Funcția de pierdere evaluează calitatea rezultatelor produse de rețeaua neuronală Principalul truc al învățării profunde este să utilizați această estimare pentru a ajusta valorile greutății pentru a reduce pierderea în exemplul curent (Figura ) Această ajustare este sarcina optimizatorului, care implementează așa-numitul algoritm de backpropagation, algoritmul central al învățării profunde Algoritmul de backpropagation este descris mai detaliat în capitolul următor Inițial, greutăților rețelei li se atribuie valori aleatorii, adică, de fapt, rețeaua implementează o secvență de transformări aleatorii Desigur, rezultatul obținut de ea este departe de a fi ideal, iar estimarea pierderilor, în consecință, este foarte Inteligența artificială, învățarea automată și învățarea profundă Orez Pierderea estimată este utilizată ca feedback pentru a ajusta greutățile înalt Dar cu fiecare exemplu procesat de rețea, ponderile sunt ajustate în direcția corectă, iar estimarea pierderii scade Acesta este un ciclu de învățare care se repetă de destule ori (de obicei zeci de iterații cu mii de exemple) pentru a produce greutăți care minimizează funcția de pierdere O rețea cu pierderi minime care returnează rezultate aproape de adevărate se numește o rețea instruită Încă o dată, acesta este un mecanism simplu care, la o anumită scară, începe să pară de neînțeles și misterios În ce stadiu de dezvoltare a ajuns învățarea profundă? În ciuda faptului că învățarea profundă este o ramură de lungă durată a învățării automate, dezvoltarea sa efectivă a început abia la începutul anilor În ultimii câțiva ani, nimic mai puțin decât o revoluție a avut loc în acest domeniu, cu progrese deosebit de notabile în modelarea percepției - vederii și auzului - sarcini care par naturale și de înțeles pentru oameni, dar care au ocolit de mult computerele În special, învățarea profundă a realizat următoarele progrese în domeniile dificile în mod tradițional ale învățării automate: □ clasificarea imaginilor la nivel uman; □ recunoașterea vorbirii la nivel uman; □ recunoașterea scrisului de mână la nivel uman; □ îmbunătățirea calității traducerii automate dintr-o limbă în alta; □ îmbunătățirea calității citirii automate a textului cu voce tare; openhide biz Capitolul Ce este învățarea profundă? □ apariția asistenților digitali precum Google Now și Amazon Alexa; □ conducerea la nivel uman; □ îmbunătățirea acurateței reclamelor direcționate utilizate de Google, Baidu și Bing; □ creșterea relevanței căutărilor pe Internet; □ apariția oportunității de a răspunde la întrebările adresate cu voce tare; □ jocul Go este mai puternic decât o persoană Încă continuăm să explorăm posibilitățile pe care le oferă învățarea profundă Am început să o aplicăm la o gamă largă de probleme dincolo de percepția mașinii și înțelegerea limbajului natural, cum ar fi raționamentul formal Succesul în această direcție ar putea însemna începutul unei noi ere în care învățarea profundă va ajuta oamenii din știință, dezvoltarea de software și multe alte domenii Nu crede reclamele Învățarea profundă a făcut progrese notabile în ultimii ani, dar așteptările pentru următorul deceniu depășesc de obicei cu mult ceea ce este probabil să se întâmple Chiar dacă multe aplicații semnificative, cum ar fi piloții automati pentru automobile, se apropie de etapele finale de implementare, multe altele, cum ar fi sistemele de conversație cu drepturi depline, traducerea la nivel uman între limbi arbitrare și înțelegerea limbajului natural la nivel uman, este probabil să va rămâne evaziv mult timp În special, vorbirea despre inteligență la nivel uman nu trebuie luată în serios Așteptările exagerate pentru viitorul apropiat sunt pline de pericole: din cauza imposibilității implementării noilor tehnologii, investițiile în cercetare vor scădea și progresul va încetini pentru o lungă perioadă de timp Acest lucru s-a mai întâmplat În trecut, AI a cunoscut două valuri de creștere a optimismului, urmate de o scădere, însoțită de frustrări și scepticism și, ca urmare, o scădere a finanțării Totul a început cu IA simbolică în anii În acei primi ani, s-au făcut previziuni foarte promițătoare pentru dezvoltarea IA Unul dintre cei mai faimoși pionieri și susținători ai abordării simbolice a inteligenței artificiale, Marvin Minsky, a declarat în : "Într-o generație problema creării "inteligenței artificiale" va fi practic rezolvată" Trei ani mai târziu, în , a făcut o predicție mai precisă: "În trei până la opt ani, vom avea o mașinărie cu inteligența unui om obișnuit" În , această realizare pare încă departe în viitor - până când putem prezice cât timp va dura - dar în anii și începutul anilor , unii experți (ca mulți oameni de astăzi) credeau că este chiar acolo Câțiva ani mai târziu, din cauza așteptărilor mari neîmplinite, cercetătorii și fondurile guvernamentale au întors spatele acestui domeniu - așa că Inteligența artificială, învățarea automată și învățarea profundă începuse prima iarnă a IA (o metaforă destul de potrivită, pentru că totul a avut loc la scurt timp după începerea Războiului Rece) Această recesiune nu a fost ultima În anii , interesul pentru IA simbolică a început să crească din cauza boom-ului sistemelor expert în companiile mari Succesele inițiale au declanșat un val de investiții, iar corporațiile din întreaga lume au început să-și creeze propriile departamente AI dedicate dezvoltării sistemelor expert Până în , companiile cheltuiau peste un miliard de dolari SUA pe an pentru dezvoltarea tehnologiei; dar la începutul anilor , din cauza costului ridicat de întreținere, a dificultăților de scalare și a aplicării limitate, interesul a început să scadă din nou Așa a început a doua iarnă a AI În prezent ne apropiem de al treilea ciclu de dezamăgiri în AI, dar suntem încă într-o fază de supraoptimism Acum cel mai bine este să ne moderam așteptările pentru viitorul apropiat și să încercăm să transmitem oamenilor care nu sunt foarte familiarizați cu latura tehnică a acestui domeniu ce poate oferi exact învățarea profundă și de ce nu este capabilă Perspective asupra AI Chiar dacă așteptările noastre pe termen scurt pot să nu fie realiste, imaginea pe termen lung pare destul de strălucitoare Tocmai începem să aplicăm învățarea profundă în multe aplicații critice, de la diagnostice medicale la asistenți digitali În ultimii cinci ani, cercetarea AI s-a mutat remarcabil de rapid, datorită în mare parte unui nivel ridicat de finanțare nemaiîntâlnit până acum în scurta istorie a AI, dar până acum prea puțin pentru a transpune acest progres în produsele și procesele care ne modelează lume Majoritatea rezultatelor cercetării în domeniul învățării profunde nu și-au găsit încă aplicație practică, cel puțin pentru rezolvarea întregii game de probleme în care această tehnologie și-ar putea găsi aplicație Medicul și contabilul dvs nu folosesc încă AI Probabil că nici tu însuți nu folosești tehnologiile AI în viața ta de zi cu zi Desigur, poți să pui întrebări simple pe smartphone și să obții răspunsuri rezonabile, poți obține recomandări foarte utile atunci când alegi produse pe Amazon, faguri și prin expresia "ziua de naștere" caută rapid pe Google Foto fotografii de la ziua fiicei tale, care a fost în luna trecută Acesta este, fără îndoială, un mare pas înainte Dar astfel de instrumente doar completează viața noastră Inteligența artificială nu a ocupat încă centrul în viața, munca și gândurile noastre Este greu de crezut acum că AI poate avea un impact semnificativ asupra lumii noastre, pentru că nu s-a desfășurat încă în întregime, la fel cum în era greu de crezut în influența viitoare a Internetului La acea vreme, cei mai mulți nu înțelegeau ce legătură ar putea avea internetul cu ei și cum le-ar schimba viața Același lucru se poate spune și astăzi despre învățarea profundă și inteligența artificială Fii sigur: va veni era AI În viitorul apropiat, AI va deveni asistentul și chiar prietenul tău; el va răspunde la întrebările dumneavoastră, va ajuta la creșterea copiilor și Capitolul Ce este învățarea profundă? are grijă de sănătate Acesta vă va livra alimente la ușă și vă va duce de la punctul A la punctul B Va fi interfața dvs către o lume din ce în ce mai complexă și plină de informații Și, cel mai important, inteligența artificială va ajuta omenirea să avanseze, ajutând oamenii de știință să facă noi descoperiri inovatoare în toate domeniile științei, de la genomică la matematică Pe parcurs, putem întâmpina eșecuri și poate supraviețuim unei alte ierni cu inteligența artificială, la fel cum industria Internetului a avut o expansiune în - , cu o scădere cauzată de o scădere a investițiilor la începutul anilor Dar vom ajunge acolo mai devreme sau mai târziu În cele din urmă, inteligența artificială va fi aplicată în toate procesele din societatea noastră și în viețile noastre, la fel ca Internetul de astăzi Nu credeți în reclamă, ci aveți încredere în previziunile pe termen lung Poate dura ceva timp pentru ca AI să-și dezvăluie întregul potențial, a cărui profunzime nimeni nu și-o poate imagina încă, dar AI va veni și va schimba lumea noastră în moduri fantastice Înainte de Deep Learning: O scurtă istorie a Machine Learning Învățarea profundă a atins un nivel de atenție publică și investiții nemaiîntâlnite în istoria inteligenței artificiale, dar nu este prima formă de succes de învățare automată Este sigur să spunem că majoritatea algoritmilor de învățare automată utilizați în prezent în industrie nu sunt algoritmi de învățare profundă Învățarea profundă nu este întotdeauna instrumentul potrivit - uneori pur și simplu nu există suficiente date pentru învățarea profundă, uneori problema este mai bine rezolvată folosind alți algoritmi Dacă învățarea profundă este primul tău contact cu învățarea automată, s-ar putea să te trezești într-o situație în care, odată ce pui mâna pe ciocanul învățării profunde, începi să tratezi toate sarcinile de învățare automată ca pe cuie Singura modalitate de a evita căderea în această capcană este să vă familiarizați cu alte abordări și să le practicați atunci când este necesar În această carte, nu vom discuta abordările clasice ale învățării automate în detaliu, ci le vom prezenta pe scurt și vom descrie contextul istoric în care au fost dezvoltate Acest lucru vă va ajuta să vedeți unde se încadrează învățarea profundă în contextul mai larg al învățării automate și să înțelegeți mai bine de unde vine învățarea profundă și de ce este importantă Modelare probabilistică Modelarea probabilistică este aplicarea principiilor statistice la analiza datelor Este una dintre cele mai timpurii forme de învățare automată și este încă utilizată pe scară largă astăzi Unul dintre algoritmii mai cunoscuți din această categorie este Naive Bayes Înainte de Deep Learning: O scurtă istorie a Machine Learning Un algoritm bayes naiv este un tip de clasificator de învățare automată bazat pe aplicarea teoremei lui Bayes cu ipoteze stricte (sau "naive", de unde și numele algoritmului) despre independența datelor de intrare Această formă de analiză a datelor este anterioară apariției computerelor și a fost aplicată manual timp de decenii până la apariția primei sale implementări pe computer (în anii ) Teorema lui Bayes și bazele statisticii au fost stabilite în secolul al XVIII-lea și asta este tot ce este nevoie pentru a folosi clasificatori Bayes naivi Strâns legat de acest algoritm este modelul de regresie logistică (abreviat ca logreg), care este uneori considerat analog cu exemplul "bună ziua" din învățarea automată Nu lăsa titlul să te păcălească Un model de regresie logistică este un algoritm de clasificare, nu un algoritm de regresie La fel ca algoritmul Naive Bayes, modelul de regresie logistică a fost dezvoltat cu mult înainte de apariția computerelor, dar rămâne încă solicitat datorită simplității și naturii sale universale Acesta este adesea primul lucru pe care un cercetător încearcă să-l facă cu setul de date pentru a-și face o idee despre clasificare Primele rețele neuronale Versiunile timpurii ale rețelelor neuronale au fost complet înlocuite de versiunile moderne care sunt acoperite în paginile acestei cărți, dar vă va fi util să știți cât de profundă a apărut învățarea Ideile de bază ale rețelelor neuronale într-o formă simplificată au fost explorate încă din anii Pentru o lungă perioadă de timp, dezvoltarea acestei abordări a fost împiedicată de lipsa unei modalități eficiente de antrenare a rețelelor neuronale mari Dar situația s-a schimbat la mijlocul anilor , când mai mulți cercetători au redescoperit independent algoritmul de backpropagation - o modalitate de a învăța lanțuri de operații parametrice folosind coborârea gradientului (vom oferi definiții precise ale acestor concepte mai târziu în carte) - și au început să-l aplice la rețelele neuronale Prima aplicare practică de succes a rețelelor neuronale datează din , când Yann LeCun de la Beli Labs a combinat ideile timpurii ale rețelelor neuronale convoluționale și backpropagarea și le-a aplicat pentru a rezolva o problemă de recunoaștere a cifrelor scrise de mână Rețeaua neuronală rezultată a fost numită LeNet și a fost folosită de Serviciul Poștal din SUA în anii pentru a recunoaște automat codurile poștale pe plicuri Metode nucleare Pe măsură ce rețelele neuronale au câștigat atenția în anii și, cu succes timpuriu, o nouă abordare a învățării automate a câștigat proeminență, care a trimis rapid rețelele neuronale înapoi în uitare: metodele nucleului Metodele kernel sunt un grup de algoritmi de clasificare, de la Capitolul • Ce este învățarea profundă? care cea mai cunoscută a fost mașina de vector de suport (Support Vector Machine, SVM) Formularea modernă a SVM a fost propusă de Vladimir Bannik (Vladimir Vapnik) și Corinna Cortes (Soginna Cortes) la începutul anilor la Beli Labs și publicată în Fosta formulare liniară a fost publicată de Bannik și Aleksey Chervonenkis (Ayehey Chervonenkis) la începutul anului Mașina vectorului suport este concepută pentru a rezolva probleme de clasificare/clasificare prin căutarea unor limite de decizie bune (Fig ), / • • separând două seturi de puncte aparţinând unor (r) • categorii diferite Limita decisivă poate fi o linie sau o suprafață, f • împărțirea eșantionului de date de antrenament în spații aparținând două categorii Pentru a clasifica noile puncte \ ff, este suficient doar să verificați pe ce parte a graniței sunt acestea sunt ( DESPRE Mașina vectorului de suport caută astfel de granițe în două etape: \ Orez Decisiv Datele sunt mapate într-un spațiu nou de graniță de dimensiune mai mare, unde limita poate fi reprezentată ca un hiperplan (dacă datele au fost bidimensionale, ca în Figura , hiperplanul degenerează într-o linie) O limită de decizie bună (hiperplan de separare) se calculează prin maximizarea distanței de la hiperplan până la cele mai apropiate puncte ale fiecărei clase, acest pas se numește maximizarea decalajului Acest lucru face posibilă generalizarea clasificării noilor eșantioane care nu aparțin setului de date de antrenament Tehnica de cartografiere a datelor într-un spațiu dimensional mai înalt, unde sarcina de clasificare devine mai ușoară, poate arăta bine pe hârtie, dar în practică este adesea dificil de aplicat Aici intervine trucul ingenios al kemelului (ideea cheie de la care metodele nucleare își iau numele) Esența sa este următoarea: pentru a găsi hiperplane de decizie bune într-un spațiu nou, nu este necesar să se calculeze în mod explicit coordonatele punctelor din acest spațiu; este suficient să se calculeze distanțele dintre perechile de puncte, ceea ce se poate face eficient cu o funcție de nucleu Funcția kernel este o operație de calcul cu costuri reduse care mapează oricare două puncte din spațiul sursă și calculează distanța dintre ele în spațiul de reprezentare țintă, ocolind complet calculul explicit al unei noi reprezentări Funcțiile kernelului sunt de obicei definite manual, mai degrabă decât extrase din Vladimir Vapnik și Corinna Cortes, Support-Vector Networks, Machine Learning , nr ( ): - Vladimir Vapnik și Alexey Chervonenkis, "Anote on One Class of Perceptrons", Automation and Remote Control ( ) Înainte de Deep Learning: O scurtă istorie a Machine Learning date - în cazul mașinii vector suport, din date se determină doar hiperplanul de separare La momentul dezvoltării sale, mașina vectorială de suport a arătat cea mai bună performanță în problemele simple de clasificare și a fost una dintre puținele metode de învățare automată care avea o bază teoretică extinsă și susceptibilă unei analize matematice serioase, ceea ce o făcea bine înțeles și ușor de interpretat Datorită acestor proprietăți, mașina de suport vector a devenit extrem de populară de mulți ani Cu toate acestea, mașina vectorului de suport s-a dovedit dificil de aplicat la seturi mari de date și nu a dat rezultate bune pentru probleme precum clasificarea imaginilor Deoarece SVM este o metodă superficială, aplicarea sa la problemele de recunoaștere necesită mai întâi extragerea manuală a unui eșantion reprezentativ (acest pas se numește inginerie de caracteristici), care este complicat și predispus la erori Arbori de decizie, Păduri aleatorii și creșterea gradientului Arborele de decizie sunt structuri ierarhice care vă permit să clasificați intrările sau să preziceți ieșirile din intrări date (Figura ) Sunt ușor de vizualizat și interpretat Arborele de decizie bazat pe date au devenit de interes pentru cercetători în anii , iar până în anii au fost adesea preferați metodelor nucleare Orez Arborele de decizie: Parametrii care pot fi învățați sunt întrebări despre date O astfel de întrebare ar putea fi, de exemplu, întrebarea "Este coeficientul lui în date mai mare de , ?" În special, algoritmul Random Forest a oferit o abordare fiabilă și practică a învățării bazate pe arbori de decizie, care implică crearea unui număr mare de arbori de decizie specializați și apoi combinarea rezultatelor acestora Pădurile aleatorii sunt aplicabile Capitolul Ce este învățarea profundă? la o gamă largă de probleme - putem spune că sunt aproape întotdeauna algoritmul optim pentru orice problemă de învățare automată de suprafață Când popularul site web al competiției de învățare automată Kaggle (http://kaggle com) a fost lansat în , pădurile aleatorii au devenit rapid cea mai populară platformă până când a apărut creșterea gradientului în La fel ca o pădure aleatorie, creșterea gradientului este o tehnică de învățare automată care combină modele predictive slabe, de obicei arbori de decizie Folosește gradient boosting, o modalitate de a îmbunătăți orice model de învățare automată prin antrenarea iterativă de noi modele specializate pentru a aborda punctele slabe ale modelelor anterioare În ceea ce privește arborii de decizie, tehnica de creștere a gradientului permite obținerea de modele care, în cele mai multe cazuri, depășesc pădurile aleatorii, păstrând în același timp proprietăți similare Astăzi este unul dintre cei mai buni algoritmi, deși nu cel mai bun, pentru rezolvarea problemelor care nu țin de recunoaștere Alături de învățarea profundă, acesta este unul dintre cele mai utilizate trucuri pe site-ul Kaggle Înapoi la rețelele neuronale În jurul anului , în ciuda pierderii aproape complete a interesului pentru rețelele neuronale din partea comunității științifice, o serie de cercetători care au continuat să lucreze cu rețelele neuronale au început să facă pași importanți: grupurile lui Geoffrey Hinton de la Universitatea din Toronto, Yoshua Bengio (Yoshua Bengio) de la Universitatea din Montreal, Yann LeCun de la Universitatea din New York și cercetători de la Institutul de Cercetare a Inteligenței Artificiale IDSIA din Elveția În , Dan Ciresan de la IDSIA a câștigat o competiție academică în clasificarea imaginilor folosind rețele neuronale profunde antrenate de GPU, primul succes practic al învățării profunde moderne Dar punctul de cotitură a venit în , când grupul lui Hinton a intrat în competiția anuală ImageNet pentru recunoașterea modelelor pe scară largă ImageNet a oferit o sarcină pe atunci foarte dificilă de a clasifica imaginile color de înaltă rezoluție în de categorii diferite după antrenament pe un eșantion de , milioane de imagini În , modelul câștigător, bazat pe abordări clasice ale recunoașterii modelelor, a arătat o acuratețe de doar , %> În , echipa lui Alex Krizhevsky, cu Geoffrey Hinton ca consilier, a obținut o precizie de , %, o descoperire semnificativă De atunci, în fiecare an primele poziții în această competiție sunt ocupate de rețele neuronale convoluționale profunde În , câștigătorul a obținut o acuratețe de , %, iar problema de clasificare pe ImageNet a fost considerată complet rezolvată Din , rețelele neuronale convoluționale profunde (convnets pe scurt) s-au mutat în categoria algoritmilor avansați pentru toate sarcinile de recunoaștere a modelelor; Înainte de Deep Learning: O scurtă istorie a Machine Learning mai general, ele pot fi utilizate cu succes în orice sarcini de recunoaștere La conferințele majore de recunoaștere a modelelor desfășurate în și , a fost greu de găsit o prezentare care să nu includă rețele neuronale convoluționale într-o formă sau alta În același timp, învățarea profundă și-a găsit aplicații în multe alte tipuri de sarcini, cum ar fi procesarea limbajului natural A înlocuit complet mașina vectorială de suport și arborii de decizie într-o gamă largă de probleme De exemplu, de câțiva ani, Organizația Europeană pentru Cercetare Nucleară (CERN) folosește metode de arbore de decizie pentru datele de la detectorul de particule ATLAS de la Large Hadron Collider; dar apoi CERN a luat decizia de a trece la utilizarea rețelelor neuronale profunde bazate pe Keras datorită performanței lor mai mari și ușurinței de instruire pe seturi mari de date Caracteristici distinctive ale învățării profunde Motivul principal pentru creșterea rapidă a învățării profunde este performanța mai bună la multe sarcini Cu toate acestea, acesta nu este singurul motiv Învățarea profundă simplifică, de asemenea, foarte mult rezolvarea problemelor prin automatizarea completă a unui pas critic în învățarea automată care se făcea manual, ingineria caracteristicilor Metodele anterioare de învățare automată, metodele de învățare de suprafață, implicau transformarea datelor de intrare în doar unul sau două spații consecutive, de obicei prin transformări simple, cum ar fi proiecția neliniară la un spațiu dimensional superior (mașină vector suport) sau arbori de decizie Cu toate acestea, reprezentările exacte necesare pentru a rezolva probleme complexe nu pot fi obținute de obicei în aceste moduri Prin urmare, oamenii au trebuit să facă eforturi mari pentru a aduce datele originale într-o formă mai potrivită pentru prelucrare prin aceste metode: au trebuit să îmbunătățească manual stratul de prezentare al datelor lor Aceasta se numește inginerie caracteristică Învățarea profundă, pe de altă parte, automatizează complet acest pas: folosind metode de învățare profundă, toate caracteristicile sunt extrase într-o singură trecere, fără a fi nevoie să le construiți manual Acest lucru a simplificat foarte mult procesul de învățare automată, deoarece a fost posibil să se înlocuiască conducta adesea complexă și în mai multe etape cu un singur model de deep learning end-to-end S-ar putea să vă întrebați: dacă scopul întrebării este de a obține mai multe straturi succesive de vederi, este posibil să aplicați în mod repetat metode de învățare de suprafață pentru a imita efectul învățării profunde? În practică, a existat o scădere rapidă a aplicațiilor succesive ale metodelor de învățare pe suprafață deoarece primul strat optim de reprezentare într-un model cu trei straturi nu este primul strat optim într-un model cu un singur strat sau cu două straturi Caracteristica transformării în învățarea profundă este că modelul poate explora toate straturile reprezentării împreună și în același timp Capitolul Ce este învățarea profundă? Mai exact, nu secvenţial (explorarea secvenţială se mai numeşte şi "lacom") În învăţarea prin cooperare a caracteristicilor, atunci când un model îşi ajustează una dintre caracteristicile sale interne, toate celelalte caracteristici care depind de el sunt ajustate automat în funcţie de schimbări, fără intervenţie umană Totul este controlat de un singur semnal de feedback: fiecare modificare a modelului servește scopului final Aceasta este o abordare mult mai puternică decât stratificarea cu lăcomie a modelelor de suprafață una peste alta, deoarece vă permite să studiați reprezentări abstracte mai complexe, împărțindu-le în serii lungi de spații intermediare (straturi), în care fiecare spațiu ulterior este rezultatul a unei simple transformări a precedentului Tehnica de învățare profundă are două caracteristici importante: construiește reprezentări din ce în ce mai complexe strat cu strat și explorează în colaborare reprezentări intermediare, astfel încât fiecare strat să fie actualizat în funcție de nevoile reprezentării stratului de deasupra și de nevoile stratului de dedesubt Împreună, aceste două proprietăți fac învățarea profundă mult mai reușită decât abordările anterioare de învățare automată Peisajul modern al învățării automate Site-ul de competiție Kaggle oferă o oportunitate excelentă de a vă face o idee despre peisajul actual al algoritmilor și instrumentelor de învățare automată Datorită naturii sale competitive (unele competiții au mii de candidați și milioane de dolari în premii) și o mare varietate de sarcini de învățare automată, Kaggle vă oferă o măsură reală a abordărilor utilizate și cât de bine se descurcă Deci, ce algoritm câștigă cu încredere competiția? Ce instrumente folosesc câștigătorii? Două abordări au dominat Kaggle în și : creșterea gradientului și învățarea profundă Amplificarea gradientului, în special, a fost folosită pentru a rezolva probleme în care erau prezente date structurate, în timp ce învățarea profundă a fost folosită pentru a rezolva probleme de recunoaștere, cum ar fi clasificarea imaginilor Cei care practică prima abordare folosesc aproape întotdeauna excelenta bibliotecă XGBoost, care oferă suport pentru două dintre cele mai populare limbi din știința datelor: Python și R Între timp, majoritatea concurenților de deep learning folosesc biblioteca Keras - ușor de utilizat , flexibil și de sprijin Limbajul Python Acestea sunt cele două metode pe care trebuie să le acordați o atenție deosebită pentru a avea succes în aplicarea învățării automate astăzi: creșterea gradientului pentru problemele de învățare la suprafață și învățarea profundă pentru problemele de recunoaștere În termeni tehnici, asta înseamnă că trebuie să deții două biblioteci - XGBoost și Keras, care domină concursurile de pe site-ul Kaggle Odată ce ați luat această carte, ați făcut deja un pas mare spre acest obiectiv De ce învățare profundă? De ce acum? De ce învățare profundă? De ce acum? Cele două idei cheie ale învățării profunde pentru rezolvarea problemelor de recunoaștere a modelelor - rețelele neuronale convoluționale și algoritmul de backpropagation - erau deja bine cunoscute în Algoritmul Long Short-Term Memory LSTM, care formează baza învățării profunde pentru prognoza seriilor temporale, a fost propus în și nu s-a schimbat prea mult de atunci Deci, de ce învățarea profundă a fost aplicată doar din ? Ce s-a schimbat în aceste două decenii? În general, învățarea automată este condusă de trei forțe tehnice: □ echipamente; □ seturi de date și teste; □ realizări algoritmice Deoarece acest domeniu este condus de descoperiri experimentale mai degrabă decât de teorie, progresele algoritmice sunt posibile numai cu datele și echipamentele disponibile pentru a testa ideile (sau, așa cum este adesea cazul, pentru a resuscita idei vechi) Învățarea automată nu este matematică sau fizică unde descoperirile pot fi făcute cu creion și hârtie Aceasta este știința ingineriei Adevăratul blocaj de-a lungul anilor și a fost datele și hardware-ul Dar în această perioadă, internetul a fost în plină expansiune și au fost create GPU-uri de înaltă performanță pentru piața de software pentru jocuri Echipamente Între și , viteza procesoarelor standard a crescut de aproximativ de ori Drept urmare, acum este posibil să rulați modele mici de deep learning pe un laptop, în timp ce acum de ani acest lucru era practic imposibil Dar modelele tipice de învățare profundă utilizate pentru recunoașterea modelelor sau a vorbirii necesită o putere de procesare mult mai mare decât un laptop În anii , companii precum NVIDIA și AMD au investit milioane de dolari în dezvoltarea de procesoare (GPU) rapide, masiv paralele, pentru a susține grafica jocurilor video din ce în ce mai realiste - supercalculatoare specializate, cu costuri reduse, concepute pentru a fi afișate pe ecranul complexului trei -scene dimensionale în timp real Această investiție a beneficiat comunitatea științifică când, în , NVIDIA a lansat CUDA (https://developer nvidia com/about-cuda), un API pentru gama sa de GPU Mai multe GPU-uri pot înlocui acum clustere puternice pe procesoarele convenționale într-o varietate de sarcini care permit calculul paralel masiv, începând cu simularea fizică rețele neuronale profunde, Capitolul Ce este învățarea profundă? efectuarea în principal de multiplicare a multor matrici mici permite, de asemenea, un grad ridicat de paralelizare; iar mai aproape de , unii cercetători au început să scrie implementări CUDA ale rețelelor neuronale Printre primii adoptatori s-au numărat Dan Ciresan și Alex Krizhevsky Industria jocurilor de noroc a ajuns să subvenționeze crearea de supercomputere pentru următoarea generație de aplicații de inteligență artificială Uneori, marile realizări încep cu jocurile Actualul GPU NVIDIA TITAN X, care costa USD la sfârșitul anului , este capabil de performanțe de vârf de , teraflopi de precizie unică: , trilioane de operațiuni pe secundă cu numere float Aceasta este de aproape de ori mai mare decât performanța unui laptop modern Durează doar câteva zile pentru ca GPU-ul TITAN X să antreneze modelul ImageNet care a câștigat competiția ILSVRC acum câțiva ani Între timp, marile companii antrenează modele de deep learning pe clustere de sute de GPU-uri concepute special pentru nevoile de deep learning, cum ar fi NVIDIA Tesla K Aceste clustere oferă o putere de calcul care nu ar fi posibilă fără GPU-urile de astăzi În plus, industria de deep learning începe să treacă dincolo de GPU-uri și să investească în procesoare și mai specializate, care excelează în deep learning În , la conferința anuală Google I/O, Google și-a prezentat designul unității de procesare a tensoarelor (TPU): un procesor cu arhitectură nouă conceput pentru a fi utilizat în rețele neuronale profunde, care a fost raportat a fi de ori mai rapid și mai eficient din punct de vedere energetic decât GPU-ul de top modele Date Uneori AI este anunțată ca o nouă revoluție industrială Dacă deep learning este motorul cu abur al acestei revoluții, atunci datele sunt cărbunele: materia primă care alimentează mașinile noastre inteligente, fără de care nu putem merge mai departe În ceea ce privește datele, pe lângă creșterea exponențială a capacității de stocare în ultimii de ani (conform legii lui Moore), schimbările din lumea jocurilor de noroc au provocat creșterea explozivă a internetului, făcând posibilă acumularea și distribuirea foarte mult cantități mari de date pentru învățarea automată În prezent, marile companii lucrează cu colecții de imagini, videoclipuri și materiale text pe care nu ar fi posibil să le colecteze fără Internet De exemplu, imagini de pe Flickr, A se vedea "Rețele neuronale convoluționale flexibile, de înaltă performanță pentru clasificarea imaginilor" în Proceedings of the nd International Conference on Artificial Intelligence ( ), www ijcai org/Proceedin^/ /Papers/ pdf A se vedea ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, nr ( ), http://mng bz/ De ce învățare profundă? De ce acum? clasificate de utilizatori au devenit o mină de aur pentru dezvoltatorii de modele de recunoaștere a modelelor Același lucru se poate spune și despre videoclipurile de pe YouTube Și Wikipedia a devenit o sursă cheie de seturi de date pentru problemele de procesare a limbajului natural Dacă există un set de date care a catalizat dezvoltarea învățării profunde, acesta este colecția ImageNet de , milioane de imagini clasificate manual în de categorii (fiecare imagine este atribuită unei singure categorii) Dar ceea ce face ca colecția ImageNet să fie specială nu este doar dimensiunea ei, ci și competițiile anuale la care concurează După cum arată exemplul Kaggle, competițiile publice sunt o modalitate excelentă de a motiva cercetătorii și inginerii să se ridice la noi culmi Existența unor criterii comune de evaluare a realizărilor cercetătorilor a ajutat foarte mult la creșterea recentă a învățării profunde Algoritmi În afară de hardware și date, până la sfârșitul anilor , ne-a lipsit o modalitate fiabilă de a antrena rețele neuronale foarte profunde Ca urmare, rețelele neuronale au rămas foarte superficiale, cu unul sau două straturi de reprezentare; în acest sens, ei nu au putut rezista unor metode de suprafață mai avansate, cum ar fi mașinile de suport vector și pădurile aleatorii Problema principală a fost propagarea gradientului prin pachete de straturi adânci Semnalul de feedback folosit pentru a antrena rețelele neuronale se dezintegra pe măsură ce numărul de straturi crește Acest lucru s-a schimbat în - cu câteva îmbunătățiri algoritmice simple, dar importante pentru a îmbunătăți propagarea gradientului: □ funcții de activare îmbunătățite", □ scheme îmbunătățite de inițializare a greutății, începând cu învățarea pre-stratificată, care a fost rapid abandonată; □ Scheme de optimizare îmbunătățite, cum ar fi RMSProp și Adam Abia când aceste îmbunătățiri au făcut posibilă crearea de modele cu straturi sau mai multe, învățarea profundă a început să descopere În cele din urmă, în , și , au fost descoperite metode și mai avansate de propagare a gradientului, cum ar fi normalizarea loturilor, legăturile transversale și convoluțiile separabile În prezent, putem antrena modele de la zero cu mii de straturi în adâncime ImageNet Large Scale Visual Recognition Challenge (ILSVRC), www image-net org/challenges/LSVRC Capitolul • Ce este învățarea profundă? Un nou val de investiții După cum au observat cercetătorii de top, în - , învățarea profundă a adus recunoașterea modelelor la un nou strat modern și, în cele din urmă, toate sarcinile de recunoaștere Acesta a fost urmat de un val de investiții în creștere treptat în industrie, depășind cu mult orice precedent observat în istoria AI În , chiar înainte ca învățarea profundă să preia controlul, investiția totală de capital de risc în IA a fost de aproximativ milioane de dolari, care a mers aproape în întregime la aplicarea practică a metodelor de învățare automată la suprafață Până în , au crescut la de milioane În acești trei ani, au apărut zeci de startup-uri care încearcă să valorifice hype Între timp, companii mari precum Google, Facebook, Baidu și Microsoft au investit în cercetări efectuate de divizii interne, iar aceste investiții au depășit aproape sigur investițiile de capital de risc Iată doar câteva cifre la suprafață: în , Google a achiziționat startup-ul de deep learning DeepMind pentru de milioane de dolari, cea mai mare achiziție de companie din istoria AI În , Baidu și-a deschis centrul de cercetare de deep learning în Silicon Valley, cu o investiție de de milioane de dolari În , Intel a achiziționat startup-ul hardware de deep learning Nervana Systems pentru peste de milioane de dolari Învățarea automată - și în special învățarea profundă - a ocupat centrul atenției printre produsele strategice ale acestor giganți ai tehnologiei La sfârșitul anului , CEO-ul Google, Sundar Pichai, a declarat: "Învățarea automată este fundamentul unei schimbări radicale în cadrul de referință în modul în care măsurăm tot ceea ce facem Îl aplicăm cu atenție în toate produsele noastre, fie că este vorba de căutare, anunțuri, YouTube sau Ryay Și am aplicat învățarea automată în toate aceste domenii de la bun început - și în mod sistematic " Ca urmare a acestui val de investiții din ultimii cinci ani, numărul de oameni care lucrează la deep learning a crescut de la câteva sute la zeci de mii, iar progresul în cercetare a atins niveluri fără precedent În prezent, nu există semne de încetinire a acestei tendințe în viitorul apropiat Democratizarea învățării profunde Unul dintre factorii cheie din spatele afluxului de noi chipuri în deep learning a fost democratizarea instrumentelor utilizate în acest domeniu La etapa inițială, învățarea profundă a necesitat cunoștințe și experiență semnificative în programare în C++ și CUDA, cu care foarte puțini se puteau lăuda Sundar Pichai, Alphabet earnings caii, oct , De ce învățare profundă? De ce acum? În prezent, abilitățile de bază de programare Python sunt suficiente pentru cercetarea învățării profunde Acest lucru se datorează în primul rând dezvoltării Theano și apoi TensorFlow, două cadre Python care implementează operațiuni tensoare care suportă diferențierea automată și simplifică foarte mult implementarea de noi modele și apariția unor biblioteci prietenoase, cum ar fi Keras, care fac lucrul cu învățarea profundă astfel încât simplu ca manipularea cărămizilor LEGO De la lansarea sa în , biblioteca Keras a fost rapid adoptată de multe noi startup-uri, studenți absolvenți și cercetători care lucrează în domeniu Ar trebui să ne așteptăm ca această tendință să continue? Există ceva special despre învățarea profundă care o face alegerea "corectă" atât pentru companiile care investesc, cât și pentru cercetători? Sau învățarea profundă este doar un moft care nu va dura? Vom folosi rețele neuronale profunde în de ani? Învățarea profundă are câteva proprietăți care își justifică statutul de revoluție în AI și va fi amânată mult timp Poate că rețelele neuronale vor dispărea în două decenii, dar ceea ce rămâne în locul lor va fi moștenitorul direct al învățării profunde moderne și al ideilor sale principale Aceste proprietăți esențiale pot fi împărțite în trei categorii: □ Simplitate - Învățarea profundă elimină necesitatea de a construi caracteristici prin înlocuirea conductelor complexe, inconsecvente și grele cu modele simple care pot fi antrenate, care sunt de obicei construite folosind cinci până la șase operații tensoare □ Scalabilitate - Învățarea profundă poate fi paralelizată cu ușurință pe un GPU sau TPU, astfel încât să poată profita din plin de Legea lui Moore În plus, modelele pot fi antrenate iterativ pe seturi de date mici, ceea ce face posibilă antrenamentul pe seturi de date de dimensiuni arbitrare (Singurul blocaj este cantitatea de putere de calcul disponibilă pentru calculul paralel, care, așa cum sugerează Legea lui Moore, este o barieră care se mișcă rapid ) □ Flexibilitate și reutilizare - Spre deosebire de multe abordări anterioare, modelele de învățare profundă pot fi antrenate pe date suplimentare fără o repornire completă, făcându-le potrivite pentru formare continuă și pe termen lung - o proprietate foarte importantă pentru modelele industriale foarte mari În plus, modelele de deep learning instruite pot fi redirecționate și astfel reutilizate: de exemplu, un model antrenat în clasificarea imaginilor poate fi inclus într-o conductă de procesare video Acest lucru vă permite să utilizați dezvoltările anterioare pentru a crea modele din ce în ce mai complexe și mai puternice De asemenea, permite aplicarea învățării profunde la cantități foarte mici de date Capitolul • Ce este învățarea profundă? Învățarea profundă a fost în centrul atenției doar de câțiva ani și nu i-am definit încă limitele În fiecare lună aflăm despre tot mai multe cazuri de utilizare și îmbunătățiri de inginerie care elimină limitările anterioare După o revoluție științifică, progresul tinde să urmeze un model sigmoid, cu o creștere rapidă la început, apoi se stabilizează treptat pe măsură ce cercetătorii se confruntă cu constrângeri formidabile, iar apoi îmbunătățirile ulterioare încetinesc În , învățarea profundă părea să fie în prima jumătate a acelui sigmoid, ceea ce înseamnă că se pot aștepta și mai multe progrese în următorii câțiva ani Înainte de a începe: Fundamentele matematice ale rețelelor neuronale Acest capitol acoperă următoarele subiecte: z este primul exemplu de rețea neuronală; z tensori și operații cu tensori; z procesul de antrenare a unei rețele neuronale folosind metode de backpropagation și gradient descendent Pentru a înțelege învățarea profundă, trebuie să cunoașteți o mulțime de concepte matematice simple: tensori, operații cu tensori, diferențiere, coborâre a gradientului etc Scopul nostru în acest capitol este să ne familiarizăm cu aceste concepte fără a ne adânci prea mult în teorie În special, vom evita formulele matematice, care nu sunt întotdeauna necesare pentru o explicație suficient de completă și pot înstrăina cititorii care nu au pregătire matematică Pentru a vă facilita înțelegerea tensorilor și a coborârii gradientului, vom începe capitolul cu un exemplu practic de rețea neuronală Și apoi ne vom familiariza treptat cu concepte noi Rețineți că va trebui să cunoașteți aceste concepte pentru a înțelege studiile de caz din capitolele următoare! După ce ați citit acest capitol, veți înțelege cum funcționează rețelele neuronale și veți putea trece la aplicația practică care începe în Capitolul Prima cunoaștere cu rețeaua neuronală Luați în considerare un exemplu specific de rețea neuronală care învață să clasifice cifrele scrise de mână și a fost creată folosind biblioteca Keras pentru Python Dacă nu aveți experiență cu Keras sau cu alte biblioteci similare, s-ar putea Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale nu vei înțelege totul în acest prim exemplu Poate că nu ați instalat încă Keras; nu este nimic în neregulă cu asta În capitolul următor, ne vom uita la fiecare element din exemplu și le vom explica în detaliu Prin urmare, nu vă faceți griji dacă unii pași par de neînțeles sau par magice La urma urmei, trebuie să începem de undeva Sarcina noastră este să implementăm clasificarea imaginilor alb-negru ale cifrelor scrise de mână ( * pixeli) în categorii (de la la ) Vom folosi setul de date MNIST, popular în comunitatea de cercetare a învățării profunde, care există aproape la fel de mult ca domeniul învățării automate în sine și este utilizat pe scară largă pentru instruire Acest set conține de imagini de antrenament și de imagini de referință colectate de Institutul Național de Standarde și Tehnologie (Institutul Național de Standarde și Tehnologie - parte a NIST pentru MNIST) în anii "Rezolvarea" problemei MNIST poate fi considerată un fel de "Bună ziua" în învățarea profundă - adesea prima acțiune întreprinsă pentru a se asigura că algoritmii funcționează exact așa cum se aștepta Pe măsură ce aprofundați în practica învățării automate, veți vedea că MNIST este adesea menționat în articole științifice, bloguri etc Câteva imagini exemple din setul MNIST pot fi văzute în fig O NOTĂ PRIVIND CLASELE ȘI ETICHETE În învățarea automată, o categorie dintr-o problemă de clasificare se numește clasă Elementele datelor originale se numesc mostre Clasa asociată cu o anumită instanță se numește etichetă Orez Exemple de imagini MNIST Nu încercați să reproduceți acest exemplu pe computer imediat Pentru a o încerca, trebuie mai întâi să instalați biblioteca Keras, care va fi discutată mai târziu în Secțiunea Setul de date MNIST este deja inclus cu Keras sub forma unui set de patru tablouri Numpy Lista Se încarcă setul de date MNIST în Keras din keras datasets import mnist (train imageSj train labels), (test images, test labels) = mnist load data() Aici, train images și train labels sunt setul de antrenament, adică datele necesare antrenamentului După antrenament, modelul va fi validat de setul de test (sau de control), test images și test labels Noțiuni introductive cu rețeaua neuronală Imaginile sunt stocate în matrice Numpy, iar etichetele sunt stocate într-o matrice de numere de la la Imaginile și etichetele sunt în corespondență directă, unu la unu Luați în considerare datele de antrenament: >>>train images shape ( , , ) >>> len(train labels) >>> etichete de tren matrice([ , , , , , , ], dtype=uint ) Și date de control: >>> test images shape ( , , ) >>> len(test labels) >>> test labels matrice([ , , , , , , ], dtype=uint ) Iată cum vom proceda: mai întâi, vom alimenta datele de antrenament ale rețelei neuronale, train images și train labels Ca rezultat, rețeaua va învăța să potrivească imaginile cu etichete Apoi cerem rețelei să clasifice imaginile în test images și să verifice acuratețea clasificării față de etichetele din test labels Acum să construim rețeaua Nu uitați - nimeni nu se așteaptă să înțelegeți totul în acest exemplu deodată Lista Arhitectura rețelei ■ Din keras import modele din straturi de import keras retea = modele Sequential() network add(layers Dense( , activation='relu', input shape=( * ,))) network add(layers Dense( , activation='softmax')) Elementul de bază al rețelelor neuronale este stratul (sau stratul), unitatea de procesare a datelor, care poate fi considerată ca un filtru pentru date Preia unele date și le scoate într-o formă mai utilă În special, straturile extrag reprezentări din datele introduse în ele, care sperăm că vor avea mai mult sens pentru problema care se rezolvă De fapt, tehnica de deep learning este de a combina straturi simple care implementează o formă de curățare incrementală a datelor Un model de învățare profundă poate fi comparat cu o sită constând dintr-o secvență de filtre de curățare a datelor din ce în ce mai fine - straturi În acest caz, rețeaua noastră constă dintr-o secvență de două straturi dense, care sunt strâns conectate (numite și complet conectate) neuronale Capitolul • Înainte de a începe: Matematica rețelelor neuronale straturi Al doilea (și ultimul) strat este un strat de pierdere cu variabile (stratul softmax), care returnează o matrice cu scoruri de probabilitate (însumând ) Fiecare scor determină probabilitatea ca imaginea curentă să aparțină uneia dintre clasele de cifre Pentru a pregăti rețeaua pentru antrenament, trebuie să configuram încă trei parametri pentru pasul de compilare' □ funcția de pierdere, care determină modul în care rețeaua ar trebui să evalueze calitatea muncii sale asupra datelor de antrenament și, în consecință, cum să o corecteze în direcția corectă; □ optimizator - un mecanism prin care rețeaua se va autoactualiza pe baza datelor observate și a funcției de pierdere; □ metrici pentru monitorizare în timpul etapelor de pregătire și testare - aici ne va interesa doar acuratețe (proporția imaginilor clasificate corect) Scopul funcției de pierdere și al optimizatorului va fi clarificat în următoarele două capitole Lista Etapa de compilare network compile(optimizer='rmsprop', loss='categoric crossentropie', metrics=['acuratețe']) Înainte de antrenament, vom preprocesa datele transformându-le în forma pe care rețeaua neuronală se așteaptă să o primească și le vom scala astfel încât toate valorile să fie în intervalul [ > ] Datele inițiale - imagini de antrenament - sunt stocate într-o matrice tridimensională ( , , ) de tip uint , valorile în care sunt numere în intervalul [ , ] Îl vom converti într-o matrice ( , * ) de tip float cu valori în intervalul [ , ] Lista Pregătirea inițială a datelor train images = train images reshape(( , * )) train images = train images astype('float ') / test images = test images reshape(( , * )) test images = test images astype('float ') / De asemenea, trebuie să codificăm etichetele categoriei Acest pas este explicat mai detaliat în Capitolul Lista Pregătirea etichetei din keras utils import to categorical etichete tren = to categorical(train labels) test labels = to categorical(test labels) Reprezentarea datelor pentru rețele neuronale Acum puteți începe antrenamentul rețelei, pentru care, în cazul utilizării bibliotecii Keras, este suficient să apelați metoda de potrivire a rețelei - încearcă să adapteze (potrivesc) modelul la datele de antrenament: >>> network fit(train imagesJ train labelSj epochs= j batch size= ) Epoca / / [=============================] - s - pierdere: , - acc: , Epoca / / [=======================> ] - ETA: Îs - pierdere: , - acc: , Procesul de antrenament afișează două cantități: pierderea rețelei pe datele de antrenament și acuratețea rețelei pe datele de antrenament În acest caz, am obținut o precizie de , ( , %) asupra datelor de antrenament Acum să verificăm cum recunoaște modelul setul de control: >>> test lossj test acc = network evaluate(test imagesJ test labels) >>> print('test acc:', test acc) test acc: , Precizia pe setul de control a fost de , %, puțin mai mică decât pe setul de antrenament Această diferență între acuratețea seturilor de antrenament și control arată un exemplu de supraadaptare, în care modelele de învățare automată arată o precizie mai slabă pe noul set de date în comparație cu cel de antrenament Discuția principală despre recalificare va fi discutată în Capitolul Acesta încheie primul nostru exemplu - tocmai ați văzut cum să construiți și să antrenezi o rețea neuronală de clasificare a cifrelor scrise de mână în mai puțin de de linii de cod Python În următorul capitol, voi intra în mai multe detalii despre toate detaliile pe care le-am văzut în acest exemplu și voi explica ce se întâmplă în culise Veți afla despre tensori, obiecte de stocare a datelor pe web; operații cu tensori care alcătuiesc straturile; coborâre în gradient, care permite rețelei dvs să învețe din exemplele de antrenament Reprezentarea datelor pentru rețele neuronale În exemplul anterior, am început cu datele stocate în tablouri multidimensionale Nunipy, numite și tensori În general, toate sistemele moderne de învățare automată folosesc tensori ca structură principală de date Tensorii sunt o structură fundamentală de date - atât de fundamentală încât se reflectă în numele bibliotecii Google TensorFlow Deci, ce este un tensor? De fapt, un tensor este un container pentru date, aproape întotdeauna numerice Cu alte cuvinte, este un container pentru numere Este posibil să fiți deja familiarizați cu matricele, care sunt tensori bidimensionali: tensorii sunt o generalizare a matricelor cu un număr arbitrar de dimensiuni (rețineți că dimensiunile sunt adesea denumite axe în terminologia tensorială) Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale Scalari (tensori de rang zero) Un tensor care conține un singur număr se numește scalar (scalar sau tensor de rang zero) În Numpy, un număr precum f loat sau f loat este un tensor scalar (sau o matrice scalară) Puteți determina numărul de axe ale unui tensor Numpy folosind atributul ndim; tensorul scalar are axe (ndim == ) Numărul de axe ale unui tensor se mai numește și rangul său Iată un exemplu de scalar în Numpy: >>> import numpy ca ex >>> x = np array( ) >>> x matrice ( ) >>> x ndim Vectori (tensori de primul rang) O matrice unidimensională de numere se numește vector sau tensor de primul rang Tensorul primului rang are o singură axă Următorul este un exemplu de vector în Numpy: >>> x = np array([ , >>> x matrice([ , , , ]) >>> x ndim , , ]) Acest vector conține cinci elemente și, prin urmare, este numit vector cincidimensional Nu confunda vectorii D cu tensorii D! Un vector cu cinci dimensiuni are o singură axă și cinci valori pe acea axă, în timp ce un tensor cu cinci dimensiuni are cinci axe (și poate avea orice număr de valori pe fiecare) Dimensiunea se poate referi fie la numărul de elemente de pe o axă dată (ca în cazul unui vector cu cinci dimensiuni), fie la numărul de axe dintr-un tensor (ca într-un tensor cu cinci dimensiuni), ceea ce poate fi uneori confuz În acest ultim caz, este mai corect din punct de vedere tehnic să vorbim despre un tensor de rangul cinci (rangul unui tensor este același cu numărul de axe), dar, oricum ar fi, tensorii folosesc o notație ambiguă: un cinci -tensor dimensional Matrici (tensori de rangul doi) O matrice de vectori este o matrice sau un tensor bidimensional O matrice are două axe (denumite adesea rânduri și coloane) O matrice poate fi gândită ca un tabel dreptunghiular de numere Iată un exemplu de matrice în Numpy: >>> x = np array([[ , , , , ], [ , , , , ], [ , , , , ]]) >>> x ndim Reprezentarea datelor pentru rețele neuronale Elementele de pe prima axă se numesc rânduri, iar cele de pe a doua axă se numesc coloane În exemplul anterior, [ , , , , ] este primul rând al lui x, iar [ , , ] este prima sa coloană Tensorii rangurilor trei și superioare Dacă împachetați astfel de matrice într-o nouă matrice, obțineți un tensor tridimensional, care poate fi reprezentat ca un cub numeric Următorul este un exemplu de tensor D în Numpy: x = pr arggay([[[ , , , , ], [ , , , , ], [ , , , , ]], [[ , , , , ], [ , , , , ], [ , , , , ]], [[ , , , , ], [ , , , , ], [ , , , , ]]]) >>> x ndim Prin împachetarea tensoarelor D într-o matrice, obțineți un tensor D și așa mai departe În învățarea profundă, tensorii de la rangul zero la D sunt cel mai frecvent folosiți, dar uneori, de exemplu, atunci când procesați date video, poate ajunge până la D tensori Atribute cheie Un tensor este definit de trei atribute cheie: □ Numărul de axe (rang)-De exemplu, un tensor D are trei axe, în timp ce o matrice are două În bibliotecile Python, cum ar fi Numpy, acest atribut tensori este numit ndim □ Forma - un tuplu de numere întregi care descriu numărul de dimensiuni pe fiecare axă a tensorului De exemplu, matricea din exemplul anterior are forma ( , ), în timp ce tensorul D are forma ( , , ) Un vector are o formă cu un singur element, cum ar fi ( ,), în timp ce un scalar are o formă goală () □ Tipul de date (numit de obicei dtype în bibliotecile Python) este tipul de date conținut în tensor; de exemplu, un tensor poate fi de tip float , uint , float etc În cazuri rare, pot fi găsiți tensori de tip char Rețineți că Numpy (și majoritatea celorlalte biblioteci) nu au tensori de șir, deoarece tensorii sunt stocați în segmente de memorie pre-alocate, contigue, iar șirurile, fiind entități mutabile, exclud o astfel de implementare Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale Pentru a adăuga detalii, să revenim la datele din MNIST pe care le-am procesat în primul exemplu Mai întâi, să încărcăm setul de date MNIST: din keras datasets import mnist (imagini tren, etichete tren), (imagini test, etichete test) = mnist load data() Aflați numărul de axe ale tensorului train images accesând atributul lui ndim: >>> print(train images ndim) forma sa: >>> print(train images shape) ( , , ) și tipul de date uitându-se la atributul dtype: >>> print(train images dtype) uint Deci acum știm că acesta este un tensor D cu numere întregi de biți Mai precis, este o matrice cu de matrice de x Fiecare matrice este o imagine alb-negru, unde fiecare element reprezintă un pixel cu o densitate de gri cuprinsă între și Să încercăm să afișăm a patra cifră din acest tensor tridimensional utilizând biblioteca Matplotlib (inclusă în pachetul standard pentru calcul științific) (Fig ) Lista Afișarea a patra cifră pe ecran cifră = imagini tren[ ] import matplotlib pyplot ca plt plt imshow(cifră, cmap=plt cm binary) plt show() Orez Al patrulea eșantion din setul nostru de date Reprezentarea datelor pentru rețele neuronale Manipularea tensoarelor cu Numpy În exemplul anterior, am selectat un anumit număr pe prima axă folosind sintaxa train images[i] Operația de selectare a unui anumit element dintr-un tensor se numește tăierea tensorului Să vedem ce operații de tăiere a tensorului pot fi folosite cu tablourile Numpy Următorul exemplu extrage cifrele de la la (a -a cifră nu este inclusă în felie) și le plasează într-o matrice de forma ( , , ): >>> felia mea = imagini tren[ : ] >>> print(my slice shape) ( , , ) Acest lucru este echivalent cu o notație mai verbosă care definește un indice de pornire de început și de sfârșit pentru fiecare axă a tensorului Rețineți că: este echivalent cu selectarea tuturor elementelor de pe axă: >>> felia mea = imagini tren[ : , >>> felia mea forma ( , , ) >>> felia mea = imagini tren[ : , >>> felia mea forma ( , , ) Echivalent cu exemplul anterior : , : ] De asemenea, echivalent cu exemplul anterior În general, puteți obține o felie între oricare doi indici de-a lungul fiecărei axe a tensorului De exemplu, iată cum să selectați pixeli din zona de x din colțul din dreapta jos al fiecărei imagini: felia mea = imagini tren[:, :, :] Sunt acceptați și indici negativi La fel ca indicii negativi din listele Python, aceștia vor fi compensați de la sfârșitul axei curente De exemplu, așa puteți decupa toate imaginile, lăsând doar un pătrat de x pixeli în centru: felia mea = imagini tren[:, :- , :- ] Pachete de date În general, prima axă (axa cu indicele pentru că numerotarea începe de la ) din toți tensorii pe care îi veți întâlni în deep learning va fi axa eșantionului (uneori numită dimensiunea eșantionului) În exemplul MNIST, modelele sunt imagini ale cifrelor De asemenea, modelele de învățare profundă nu procesează întregul set de date; îl despart în pachete mici Mai precis, iată un lot din exemplul de imagine cu cifre MNIST, care are o dimensiune de : lot = imagini tren[: ] Capitolul • Înainte de a începe: Matematica rețelelor neuronale Și iată următorul pachet: lot = imagini tren[ : ] Și iată cel de-al-lea pachet: lot = imagini tren[ * n: * (n + )] Când luăm în considerare astfel de tensori de pachet, prima axă (axa cu indicele ) se numește axa pachetului sau dimensiunea pachetului Veți întâlni adesea această terminologie atunci când lucrați cu Keras și alte biblioteci de deep learning Exemple practice de tensori cu date Pentru a fi mai clar, listăm câteva exemple de tensori cu date pe care le puteți întâlni în viitor Datele pe care va trebui să le manipulați se vor încadra aproape întotdeauna în una dintre următoarele categorii: □ date vectoriale - tensori bidimensionali cu o formă (modele, caracteristici); □ serii sau secvențe de timp - tensori D cu formă (modele, marcaje temporale, caracteristici); □ imagini - tensori quadridimensionali cu o formă (modele, înălțime, lățime, culoare) sau cu o formă (modele, culoare, înălțime, lățime); □ video - tensori D cu formă (eșantioane, cadre, înălțime, lățime, culoare) sau formă (eșantioane, cadre, culoare, înălțime, lățime) Date vectoriale Cea mai comună formă de date În astfel de seturi, fiecare probă poate fi reprezentată printr-un vector, iar pachetul, respectiv, printr-un tensor bidimensional (adică o matrice de vectori), unde prima axă este axa eșantionului, iar a doua este caracteristica axă Să luăm în considerare două exemple □ Un set de date actuariale de informații despre persoane, cu vârsta, codul poștal și venitul pentru fiecare persoană Fiecare persoană este caracterizată de un vector cu trei valori, respectiv, întregul set de date care descrie de persoane putând fi stocat într-un tensor bidimensional cu forma ( , ) □ O colecție de documente text, în care fiecare document este reprezentat de numărul de repetări ale fiecărui cuvânt (dintr-un dicționar de de cuvinte cele mai comune) Fiecare document poate fi reprezentat ca un vector cu de valori (un contor pentru fiecare cuvânt din dicționar), respectiv, întregul set de date care descrie de documente poate fi stocat într-un tensor bidimensional cu forma ( , ) Reprezentarea datelor pentru rețele neuronale Serii temporale sau secvențe Ori de câte ori timpul (sau conceptul de ordine secvențială) joacă un rol important în datele dvs , este de preferat să stocați astfel de date într-un tensor tridimensional cu o axă a timpului explicită Fiecare probă poate fi reprezentată ca o secvență de vectori (tensori D) și pachetul de date în sine ca un tensor D (Figura ) Marcaje temporale Orez Tensor D cu serii temporale Prin convenție, axa timpului este întotdeauna a doua axă (axa cu indicele ) Să ne uităm la câteva exemple □ Setul de date privind prețul acțiunilor În fiecare minut stocăm prețul actual al acțiunilor, precum și prețurile cele mai mari și cele mai mici din ultimul minut Adică, fiecare minut este reprezentat de un vector tridimensional, întreaga zi de tranzacționare este reprezentată de un tensor bidimensional cu forma ( , ) (unde este durata zilei de tranzacționare în minute) și date pentru de zile este reprezentată de un tensor tridimensional cu forma ( , , ) În acest caz, fiecare eșantion reprezintă date pentru o zi de tranzacționare □ Set de date Tweet, în care fiecare tweet este codificat cu o secvență de de caractere dintr-un alfabet cu de caractere unice În acest caz, fiecare caracter poate fi codificat ca vector binar cu de elemente (conține zerouri în toate elementele, cu excepția elementului cu un index corespunzător numărului caracterului din alfabetul în care este scris ) Cu această organizare, fiecare tweet poate fi reprezentat ca un tensor bidimensional cu forma ( , ), iar un set cu un milion de tweeturi poate fi reprezentat ca un tensor cu forma ( , , ) Imagini De obicei, imaginile au trei dimensiuni: înălțime, lățime și culoare Chiar dacă imaginile alb-negru (ca în setul de date MNIST) au un singur canal de culoare și pot fi stocate în tensori D, prin convenție tensorii de imagine au întotdeauna trei dimensiuni, unde este alocat un singur canal de culoare pentru imaginile alb-negru În consecință, un pachet cu de imagini alb-negru având o dimensiune de x poate fi stocat într-un tensor cu forma ( , , , ), iar un pachet cu de imagini color poate fi stocat într-un tensor cu forma ( , , , ) (Fig ) Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale Orez Tensor D cu imagini (conform convenției "canalul este pe primul loc") Există două convenții pentru formele tensorului cu imagini: convenția de canal vine ultima (folosită în TensorFlow) și convenția de canal este prima (utilizată în Theano) TensorFlow, un cadru de învățare automată dezvoltat de Google, atribuie culoare ultimei axe: (eșantioane, înălțime, lățime, culoare) Și biblioteca Theano atribuie o axă pentru culoare care urmează imediat axa pachetelor: (swatches, culoare, înălțime, lățime) Urmând convenția Theano, exemplele anterioare de tensori vor fi de forma ( , , , ) și ( , , , ) Cadrul Keras acceptă ambele formate Video Datele video sunt unul dintre puținele tipuri de date care necesită tensori cinci-dimensionali pentru stocare Videoclipul poate fi gândit ca o secvență de cadre, în care fiecare cadru este o imagine color Fiecare cadru poate fi stocat într-un tensor D (înălțime, lățime, culoare), respectiv, secvența lor poate fi stocată într-un tensor D (cadre, înălțime, lățime, culoare), iar un lot de videoclipuri diferite poate fi stocat într-un D tensor cu o formă (eșantioane, rame, înălțime, lățime, culoare) De exemplu, un clip video de de secunde la o rezoluție de x și cadre pe secundă ar avea de cadre Pentru a salva un lot de patru astfel de clipuri, aveți nevoie de un tensor cu forma ( , , , , ) Adică de valori! Dacă presupunem că tipul d al tensorului este definit ca float , atunci fiecare valoare va avea nevoie de de biți pentru a stoca, adică pentru a stoca întregul tensor - MB Puternic! Videoclipurile pe care le veți întâlni în viața reală sunt mult mai ușoare, deoarece nu sunt stocate ca colecții de valori float și sunt de obicei puternic comprimate (cum ar fi formatul MPEG, de exemplu) Roțile rețelelor neuronale: operațiunile tensoarelor Roțile de viteză ale rețelelor neuronale: operatii cu tensori Deoarece orice program de calculator poate fi redus la un set mic de operații binare de intrare (ȘI, SAU, NU etc ), toate transformările efectuate de rețelele neuronale profunde în timpul antrenamentului pot fi reduse la o mână de operații tensorale aplicate tensorilor cu valori numerice date De exemplu, tensorii pot fi adunați, înmulțiți etc În primul nostru exemplu, am creat o rețea suprapunând două straturi dense unul peste altul În biblioteca Keras, o instanță de strat arată astfel: keras layers Dense( j activation='relu') Acest strat poate fi interpretat ca o funcție care ia un tensor D și returnează un alt tensor D, o nouă reprezentare a tensorului original În acest caz, funcția arată astfel (unde W este un tensor D și b este un vector, ambele valori sunt atribute de strat): ieșire = relu(punct(Wj intrare) + b) Să o desfășurăm Aici avem trei operații de tensor: produsul punctual (punctul) al tensorului inițial de intrare și tensorul numit W; adăugarea (+) a tensorului bidimensional rezultat și a vectorului b; si in final operatia relu relu(x) este echivalent cu max(x, ) NOTĂ Chiar dacă această secțiune folosește foarte des expresii de algebră liniară, aici nu veți găsi notații matematice Mi se pare că programatorii non-matematici învață mai ușor conceptele matematice dacă sunt exprimate în fragmente scurte de cod Python, mai degrabă decât în formule matematice Prin urmare, vom folosi codul Numpy peste tot Operații element cu element Operația relu și adăugarea sunt operații element cu element, operații care se aplică fiecărui element din tensor în mod individual Adică, aceste operațiuni sunt susceptibile de paralelizare masivă (vectorizare, termenul provine de la arhitectura procesorului vectorial al supercomputerelor din anii - ) Pentru a implementa operațiuni element cu element în Python, puteți utiliza o buclă for, ca în următorul exemplu de implementare a operației relu: def naive relu(x): assert len(x shape) == ◄ Verificați că x este un tensor Numpy D x = x copy() ◄ - Exclude suprascrierea tensorului original pentru i în interval (x shape[ ]): Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale pentru j în interval (x shape[l]): x[id j] = max(x[i, j], ) return x Adăugarea funcționează în același mod: def naive add(Xj y): assert len(x shape) == ◄ Verificați că x și y sunt tensori Numpy D afirmă x forma == y formă x = x copy() ◄ Exclude suprascrierea tensorului original pentru i în interval (x shape[ ]): pentru j în interval (x shape[l]): X[i, j] += y[i> j] întoarce x Urmând același principiu, puteți implementa înmulțirea, scăderea, etc Când lucrați cu tablouri Numpy, puteți utiliza implementări gata făcute, optimizate ale acestor operații, disponibile ca funcții din pachetul Numpy, care deleg ele însele munca principală implementărilor Subprogramului de algebră liniară de bază (În LAS), dacă sunt instalate (desigur, trebuie instalate) BLAS este un set de rutine de nivel scăzut, paralele și eficiente pentru calcularea cu tensori, care sunt de obicei implementate în Fortran sau C Cu alte cuvinte, atunci când utilizați Numpy, operațiunile element cu element pot fi scrise așa cum se arată mai jos și vor fi efectuate aproape instantaneu: import numpy ca ex z = x + y ◄ z = np maximum(Zj ) ◄ - Funcționare în funcție de elemente Relu Extensie Implementarea noastră anterioară a naive add acceptă doar adăugarea de tensori D cu forme identice Dar în stratul Dens de mai sus, am adăugat un tensor D la un vector Ce se întâmplă în timpul adunării când formele tensoarelor adăugate diferă? Când este posibil și nu provoacă ambiguitate, tensorul mai mic este extins astfel încât noua sa formă să se potrivească cu forma tensorului mai mare Extinderea se face în două etape: Axele (numite axe de expansiune} sunt adăugate la tensorul mai mic, astfel încât valoarea atributului său ndim să se potrivească cu valoarea aceluiași atribut al tensorului mai mare Roțile rețelelor neuronale: operațiunile tensoarelor Tensorul mai mic este copiat în aceste noi axe până când se potrivește cu forma tensorului mai mare Să luăm în considerare un exemplu concret Fie tensorii X cu forma ( , ) și y cu forma ( ,) Pentru a le alinia, trebuie mai întâi să adăugați prima axă goală la tensorul y, astfel încât să ia forma ( , ), apoi să copiați a doua axă de de ori, astfel încât rezultatul să fie un tensor Y cu forma ( , ), unde Y[ i, :] == y pentru i în interval cange( , ) După aceea, puteți adăuga X și Y, care au aceeași formă În implementarea actuală, un nou tensor D nu este creat, desigur, deoarece ar fi ineficient Operația de copiere este pur virtuală: se întâmplă la nivel algoritmic, nu în memorie Dar o astfel de reprezentare cu vector de copiere pentru noua axă este un model mental util Iată cum ar putea arăta o implementare naivă: def naive add matrix and vector(x, y): assert len(x shape) == ◄ Verificați că x este un tensor Numpy D assert len(y shape) == ◄ Verificați că y este un vector Numpy afirmă x shape[l] == y shape[ ] x = x copy() ◄ Exclude suprascrierea tensorului original pentru i în interval(x shape[ ]): pentru j în interval(x shape[l]): x[i, j] += y[j] întoarce x În cazul general, tehnica extensiei poate fi utilizată în operații pe elemente cu doi tensori, dacă unul are forma (a, b, n, n + , m), iar celălalt are forma forma (n, n + , m) În acest caz, expansiunea va adăuga axe până la n - Următorul exemplu aplică operația maximă în funcție de element la doi tensori cu forme diferite prin expansiune: import numpy ca ex x = ex random random(( , , , )) x este un tensor de numere aleatoare având forma ( , , , ) y = ex random random(( , z = np maximum(x, y) - )) y este un tensor de numere aleatoare având forma ( ) Tensorul rezultat z are forma ( , , , ) similar cu x Produsul punctual al tensoarelor Produsul punctual, numit uneori și produs tensor (a nu se confunda cu produsul elementwise), este cel mai general și mai util Capitolul Înainte de a începe: Fundamentele matematice ale rețelelor neuronale operare cu tensori Spre deosebire de operațiile pe elemente, combină elemente din tensorii originali Produsul în funcție de elemente în Numpy, Keras, Theano și TensorFlow se realizează folosind operatorul * Operația de produs punct în TensorFlow are o sintaxă diferită, dar Numpy și Keras folosesc un operator punct simplu: import numpy ca pr z = np dot(xj y) În matematică, produsul scalar este notat cu un punct ( ): z = x la Ce face operatiunea de produs punctual? Mai întâi, să ne ocupăm de produsul scalar a doi vectori, x și y: def naive vector dot(Xj y): assertlen(x shape) == assertlen(y shape) == Asigurați-vă că x și y sunt vectori Numpy afirmă x shape[ ] == y shape[ ] z = pentru i în interval (x shape[ ]): z += x[i] * y[i] întoarce z Rețineți că produsul scalar a doi vectori are ca rezultat un scalar și numai vectorii cu același număr de elemente pot participa la operație De asemenea, este posibil să obțineți produsul scalar al unei matrice x și un vector y, care este un vector ale cărui elemente sunt produsele scalare ale rândurilor x și y Iată cum este implementată această operațiune: import numpy ca ex def naive matrix vector dot(xj y): assertlen(x shape) == assert len(y shape) == ◄ afirmă x shape[l] == y shape[ ] z = np zeros(x shape[ ]) pentru i în interval (x shape[ ]): pentru j în interval (x shape[l]): z[i] += x[i, j] * y[j] return z Asigurați-vă că x este o matrice Numpy Asigurați-vă că Y - Numpy Vector Prima dimensiune a lui x trebuie să se potrivească cu dimensiunea zero a lui y! Această operație va returna un vector cu element zero care are aceeași formă ca "Point" în engleză este "dot", de unde și numele metodei punct care implementează produsul punctual - Notă pe Roțile rețelelor neuronale: operațiunile tensoarelor De asemenea, ar fi posibil să se refolosească codul scris anterior, subliniind generalitatea produselor matrice-vector și vector-vector: def naive matrix vector dot(xj y): z = np zeros(x shape[ ]) pentru i în interval (x shape[ ]): z[i] = naive vector dot(x[ij :], y) returnează z Rețineți că dacă unul dintre cei doi tensori are ndim mai mare decât , produsul scalar nu mai este o operație simetrică, adică rezultatul punctului (x, y) nu este același cu rezultatul punctului (y, x) Desigur, produsul interior poate fi extins la tensori cu un număr arbitrar de axe Cel mai des folosit în practică este produsul scalar a două matrice Pentru a obține produsul scalar a două matrice, x și y (punct(x, y)), este posibil numai dacă x shape[l] == y shape[ ] Rezultă o matrice cu forma (x shape[ ], y shape[l]), ale cărei elemente sunt produsele scalare ale x rânduri și y coloane Iată cum ar putea arăta o implementare simplă: def naive matrix dot(xj y): afirmă len(x shape) == I assert len(y shape) == I Verificați că x și y sunt matrici Numpy assert x shape[l] == y shape[ ] ◄ i Prima dimensiune x ar trebui să Coincid cu dimensiunea zero y! z = np zeros((x shape[ ]j y shape[l])) pentru i în interval (x shape[ ]): ◄ Traversați rândurile în x pentru j în intervalul(y forma[l]): ◄ - și coloane în y row x = x[id:] column y = y[:, j] z[ij j] = naive vector dot(row Xj column y) return z Această operație va returna o matrice de forma dată cu zero elemente Pentru a clarifica modul în care este determinată compatibilitatea formei matricei produsului punctual, reprezentați tensorii de intrare și de ieșire așa cum se arată în Fig Matricele x, y și z sunt prezentate în fig , sub formă de dreptunghiuri (literal - tabele de elemente) Numărul de rânduri din x și coloane din y trebuie să se potrivească, ceea ce înseamnă că lățimea lui x trebuie să se potrivească cu înălțimea lui y Dacă creați noi algoritmi de învățare automată, probabil că va trebui să desenați diagrame ca aceasta des În general, produsul scalar al tensorilor cu un număr mare de dimensiuni se realizează în conformitate cu aceleași reguli de compatibilitate a formei descrise mai sus pentru cazul matricelor bidimensionale: (a, bg c, d) (dj) -> (a, b, c) (a, bj c, d) (dj e) -> (a, b, c, e) și T D Capitolul • Înainte de a începe: Matematica rețelelor neuronale Cu A X y = z b >> x = np array([[ , ], [ -, ], [ -, ]]) >>> prinț(х shape) ( , ) >>> x = x reforma(( , )) matrice([[ ], [ -L [ ], [ ], [ ], [ ]]) >>> x = x reforma(( , )) matrice([[ , , ], [ , , ]]) Roțile rețelelor neuronale: operații tensoare Un caz special de schimbare a formei care este adesea întâlnit în practică este transpunerea Transpunerea este o transformare a unei matrice atunci când rândurile devin coloane și coloanele devin rânduri, adică x[i, : ] devine x[:, i]: >>> x = np zeros(( , )) >>> x = np transpose(x) >>> print(forma x) ( ) Interpretare geometrică operatii cu tensori Deoarece conținutul tensorilor poate fi interpretat ca coordonatele punctelor dintr-un spațiu geometric, toate operațiile pe tensori au o interpretare geometrică Să luăm ca exemplu operația de adăugare Să fie următorul vector: A = [ , , ] Determină direcția în spațiul bidimensional (Fig ) Vectorii sunt de obicei reprezentați ca săgeți care conectează originea cu un punct dat, așa cum se arată în Fig Orez Punct în D Vector în spațiu bidimensional, spațiu reprezentat ca o săgeată Să adăugăm un nou vector B = [ , ] și să-l adăugăm celui anterior Pentru a obține vectorul rezultat, care este suma celor doi vectori originali, este suficient să mutați începutul unui vector până la sfârșitul celuilalt (Fig ) Operațiile geometrice elementare precum transformările afine, rotația, scalarea etc pot fi exprimate ca operații pe tensori De exemplu, rotația unui vector bidimensional cu unghiul teta este exprimată ca produs scalar prin matricea R = [u, ѵ] de dimensiunea > , : ◄ Bucla de optimizare w, pierdere, gradient = get current parameters() viteză = viteza trecută * impuls + rata învățării * gradient w = w + impuls * viteză - rata învățare * gradient viteză trecută = viteza update parameter(w) Combinarea derivatelor: Algoritmul de backpropagation În algoritmul anterior, am presupus în mod arbitrar că, dacă o funcție este diferențiabilă, putem calcula în mod explicit derivata ei În practică, o funcție de rețea neuronală constă din multe operații secvențiale cu tensori, combinate într-un singur lanț, fiecare dintre ele având o derivată simplă, cunoscută De exemplu, să fie o rețea f formată din trei operații cu tensori a, b și c și matrice de greutate Wl, W și W : f(Wl, W , W ) = a(Wl, b(W , c(W ))) Formula ne spune că un astfel de lanț de funcții poate fi obținut folosind următoarea identitate, care se numește regula lanțului f(g(x)) = = f'(g(x))*g'(x) Aplicarea unei reguli de lanț la calcularea valorilor gradientului Capitolul • Înainte de a începe: Matematica rețelelor neuronale Intrarea rețelei neuronale conduce la un algoritm numit backpropagation sau diferențiere inversă Propagarea inversă începe de la valoarea finală a pierderii și funcționează înapoi de la straturile superioare la straturile inferioare, aplicând o regulă în lanț pentru a calcula contribuția fiecărui parametru la valoarea pierderii În prezent și pentru mulți ani de acum înainte, oamenii construiesc și vor construi rețele bazate pe cadre moderne cu suport pentru diferențierea simbolică, cum ar fi TensorFlow Aceasta înseamnă că pentru un anumit lanț de operații cu o derivată cunoscută, aceștia pot calcula o funcție de gradient pentru lanț (folosind o regulă de lanț) care mapează valorile parametrilor rețelei la valorile gradientului Având în vedere o astfel de funcție, trecerea inversă se reduce la apelarea acestei funcție de gradient Cu diferențierea simbolică, nu trebuie niciodată să implementați manual propagarea inversă Din acest motiv, nu vă vom pierde timpul și atenția cu privire la formularea exactă a algoritmului de backpropagation în paginile acestei cărți Tot ce aveți nevoie este o bună înțelegere a modului în care funcționează optimizarea bazată pe gradient Privind înapoi la primul exemplu Am ajuns la sfârșitul capitolului și acum ar trebui să aveți o idee bună despre ceea ce se întâmplă în adâncul rețelei neuronale Să ne întoarcem la primul exemplu și să examinăm fiecare parte a acestuia în lumina noilor cunoștințe acumulate în cele trei secțiuni anterioare Iată contribuțiile noastre: (imagini tren, etichete tren), (imagini test, etichete test) = mnist load data() train images = train images reshape(( , * )) train images = train images astype('float ') / test images = test images reshape(( , * )) test images = test images astype('float ') / Până acum, știți deja că intrările float sunt stocate în tensori Numpy de forma ( , ) (date de antrenament) și respectiv ( , ) (date de control) Iată rețeaua noastră: retea = modele Sequential() network add(layers Dense( , activation='relu', input shape=( * ,))) network add(layers Dense( , activation='softmax')) Până acum, știți deja că această rețea constă dintr-un lanț de două straturi dense, fiecare dintre ele aplică câteva operații simple de tensor la datele de intrare, Rezumatul capitolului și că aceste operații implică tensori de greutate Tensorii de greutate, care sunt atribute ale stratului, sunt locul în care sunt stocate cunoștințele acumulate de rețea Iată cum arăta pasul de compilare: network compile(optimizer='rmsprop', loss='categoric crossentropie', metrics=['acuratețe']) Până acum, ați înțeles deja că categorical crossentropy este o funcție de pierdere care este folosită ca semnal de feedback pentru antrenamentele tensorilor de greutate și pe care faza de antrenament încearcă să o minimizeze De asemenea, știți că reducerea pierderilor se realizează prin aplicarea algoritmului de coborâre a gradientului stocastic pe loturi mici Regulile exacte care guvernează o anumită aplicație de coborâre a gradientului sunt determinate de optimizatorul rmsprop, care este trecut în primul argument În cele din urmă, iată cum arăta bucla de antrenament: network fit(train imageSj train labelSj epochs= , batch size= ) Acum știți ce se întâmplă în apelul fit: rețeaua începe să itereze peste datele de antrenament în mini-lot de de mostre și rulează iterații (fiecare iterație peste toate datele de antrenament se numește o epocă) Pentru fiecare mini-pachet, rețeaua calculează gradienții de greutate având în vedere pierderea pachetului și modifică ponderile în direcția corespunzătoare Peste cinci epoci, rețeaua va efectua de schimbări de gradient ( pe epocă), după care pierderea rețelei este suficient de mică încât rețeaua să poată clasifica cifrele scrise de mână cu o precizie ridicată Acum știi cele mai multe din ceea ce trebuie să știi despre rețelele neuronale Scurt rezumat al capitolului □ Antrenamentul înseamnă găsirea combinației de parametri ai modelului care minimizează funcția de pierdere pentru un anumit set de date de antrenament și obiectivele lor respective □ Antrenamentul are loc prin extragerea de pachete de eșantioane de date aleatoare și țintele acestora și calculul gradientului parametrilor rețelei, ținând cont de pierderea de pachete Apoi, parametrii rețelei sunt ușor deplasați (cantitatea de deplasare este determinată de rata de învățare) în direcția opusă gradientului □ Întregul proces de învățare este posibil prin faptul că rețelele neuronale sunt lanțuri de operații diferențiabile pe tensori și, prin urmare, permit aplicarea unei reguli de lanț pentru a deduce o funcție de gradient care mapează parametrii actuali și pachetul de date curent la o valoare de gradient Capitolul • Înainte de a începe: Matematica rețelelor neuronale □ În capitolele ulterioare, veți întâlni adesea două concepte cheie - funcții de pierdere și optimizatori Acestea trebuie definite înainte de a trimite date în rețea □ Funcția de pierdere este suma pe care doriți să o minimizați în timpul antrenamentului, așa că ar trebui să fie o măsură a succesului pentru problema pe care o rezolvați □ Optimizatorul determină modul exact de utilizare a gradientului de pierdere pentru a modifica parametrii: de exemplu, ar putea fi un optimizator RMSProp care implementează coborârea gradientului de impuls etc Noțiuni de bază cu rețele neuronale Acest capitol acoperă următoarele subiecte: z componentele de bază ale rețelelor neuronale; z o introducere în Keras; z configurați o stație de lucru pentru învățarea profundă; z utilizarea rețelelor neuronale pentru a rezolva probleme simple de clasificare și regresie Scopul acestui capitol este de a vă ajuta să începeți să utilizați rețelele neuronale pentru a rezolva probleme practice Aici, veți consolida cunoștințele acumulate în primul nostru studiu de caz din Capitolul și le veți aplica pentru a rezolva trei probleme noi care acoperă trei dintre cele mai comune cazuri de utilizare pentru rețelele neuronale: clasificarea binară, clasificarea multiclasă și regresia scalară În acest capitol, vom arunca o privire mai atentă asupra principalelor componente ale rețelelor neuronale introduse în Capitolul : straturi, rețele, funcții obiective și optimizatori Vom arunca o privire rapidă la Keras, o bibliotecă de deep learning pentru Python pe care o vom folosi pe tot parcursul cărții Să pregătim o stație de lucru pentru învățarea profundă prin configurarea TensorFlow, Keras și suport pentru calcularea GPU Să explorăm trei exemple introductive de utilizare a rețelelor neuronale pentru a rezolva probleme practice: □ clasificarea recenziilor de film în pozitive și negative (clasificare binară); □ clasificarea fluxurilor de știri pe subiecte (clasificare multiclasă); □ evaluarea casei pe baza datelor imobiliare (regresie) Capitolul • Noțiuni introductive despre rețelele neuronale Până la sfârșitul acestui capitol, veți fi învățat cum să utilizați rețelele neuronale pentru a rezolva probleme precum clasificarea și regresia pe date vectoriale După aceea, veți fi gata să explorați teoria mai riguroasă a învățării automate din capitolul Anatomia unei rețele neuronale După cum am învățat în capitolele anterioare, antrenamentul rețelelor neuronale se concentrează pe următoarele obiecte: □ straturi care sunt combinate într-o rețea (sau model); □ date sursă și scopurile lor respective", □ funcţia de pierdere, care determină semnalul de feedback utilizat pentru învăţare; □ optimizatorul, care determină modul în care are loc antrenamentul Relația lor poate fi reprezentată așa cum se arată în Fig : Rețeaua constă din straturi care sunt înlănțuite împreună și mapează datele originale în predicții Funcția de pierdere compară apoi aceste predicții cu ținte și returnează o valoare a pierderii: o măsură a cât de bine se potrivește predicția făcută de rețea cu rezultatul așteptat Optimizatorul folosește această valoare de pierdere pentru a modifica ponderile rețelei Orez Relația dintre rețea, straturi, funcția de pierdere și optimizator Să aruncăm o privire mai atentă la straturi, rețele, funcții de pierdere și optimizatori Anatomia unei rețele neuronale Straturi: elementele de bază ale învățării profunde Straturile, discutate în capitolul , sunt structura fundamentală a datelor în rețelele neuronale Un strat este un modul de procesare a datelor care ia ca intrare și returnează unul sau mai mulți tensori ca ieșire Unele straturi sunt apatride, dar de cele mai multe ori nu sunt: greutăți ale straturilor, unul sau mai mulți tensori antrenați folosind un algoritm de coborâre a gradientului stocastic care stochează împreună cunoștințele despre rețea Straturi diferite corespund tensoarelor de diferite formate și diferitelor tipuri de prelucrare a datelor De exemplu, datele vectoriale simple stocate în tensori D cu formă (modele, caracteristici) sunt adesea procesate în straturi dens conectate, numite și straturi complet conectate sau dense (clasa Dense din Keras) Serii de date sunt stocate în tensori D cu formă (modele, marcaje temporale, caracteristici) și sunt de obicei procesate de straturi recurente, cum ar fi LSTM Imaginile sunt stocate în tensori D și sunt de obicei procesate cu straturi convoluționale D (Conv D) Straturile pot fi considerate cărămizi LEGO de învățare profundă Framework-uri precum Keras fac această comparație și mai explicită Construirea modelelor de învățare profundă în Keras se realizează prin combinarea straturilor compatibile în conducte de procesare a datelor Conceptul de compatibilitate a straturilor în acest caz reflectă doar faptul că fiecare strat acceptă și returnează tensori de o anumită formă Aruncă o privire la următorul exemplu: din straturi de import keras layer = layers Dense( , input shape=( ,)) Strat complet conectat cu de neuroni de ieșire Acest lucru creează un strat care acceptă doar tensori D a căror primă dimensiune este (axa - dimensiunea pachetului - nu este setată, deci orice valoare este validă) Acest strat returnează un tensor a cărui primă dimensiune este Cu alte cuvinte, acest strat poate fi conectat la stratul de mai jos doar dacă acceptă vectori D Cadrul Keras elimină nevoia de a vă face griji cu privire la compatibilitate, deoarece straturile adăugate modelelor sunt construite automat pentru a se potrivi cu forma stratului de intrare De exemplu, imaginați-vă că ați scris următorul cod: din modelele de import keras din straturi de import keras model = modele Sequential() model add(layers Dense( , input shape=( ,))) model add(layers Dense( )) Capitolul Începeți cu rețelele neuronale Al doilea elefant este creat fără o valoare explicită pentru argumentul input shape, astfel încât forma intrării va fi dedusă automat din forma ieșirii stratului anterior Modele: rețele de straturi Modelul de învățare profundă este un grafic de strat direcționat, aciclic Cel mai adesea, în practică, se utilizează o stivă liniară de straturi, mapând o singură intrare la o singură ieșire Cu toate acestea, pe măsură ce avansați, veți întâlni o gamă mult mai largă de topologii de rețea Aici sunt câțiva dintre ei: □ rețele cu două ramuri (rețele cu două ramuri); □ rețele multihead; □ blocuri de început Topologia rețelei definește spațiul ipotezelor Amintiți-vă cum, în capitolul , am definit învățarea automată ca "găsirea unei reprezentări semnificative a unei intrări într-un spațiu de caracteristici predefinit folosind un semnal de feedback" Alegând o topologie de rețea, restricționați spațiul de posibilități (spațiul de ipoteze) la o anumită secvență de operații cu tensori care mapează intrările la ieșiri Sarcina ta este atunci să găsești un set bun de valori pentru tensorii de greutate implicați în aceste operații cu tensori Alegerea arhitecturii de rețea potrivite este mai mult artă decât știință; și, deși există câteva tehnici și principii pe care să te bazezi, doar practica te poate ajuta să devii un arhitect de rețele neuronale desăvârșit În următoarele câteva capitole, veți fi introdus în câteva dintre principiile proiectării rețelelor neuronale și veți obține o idee inițială despre ceea ce este și ce nu este potrivit pentru rezolvarea unor probleme specifice Funcții de pierdere și optimizatori: chei pentru reglarea procesului de antrenament După ce v-ați decis asupra arhitecturii rețelei, trebuie să selectați încă două opțiuni: □ O funcție de pierdere (funcție obiectivă) care returnează un scor care va fi minimizat în timpul procesului de învățare Reprezintă o măsură a succesului în rezolvarea problemei în cauză □ Un optimizator care determină modul în care se va schimba rețeaua sub influența funcției de pierdere Implementează o variantă specifică a Coborârii Gradient Stochastic (SGD) Introducere în Keras O rețea neuronală cu mai multe ieșiri poate avea mai multe funcții de pierdere (una per ieșire) Cu toate acestea, procesul de coborâre a gradientului trebuie să se bazeze pe o singură valoare a pierderii scalare, adică pentru rețelele cu funcții de pierdere multiple, toate pierderile sunt combinate (prin mediere) într-o singură valoare scalară Alegerea funcției obiective potrivite pentru o anumită sarcină este foarte importantă: rețeaua dumneavoastră va profita de orice ocazie pentru a minimiza pierderile; deci, dacă funcția obiectiv nu este pe deplin corelată cu rezolvarea de succes a problemei, rețeaua dvs va produce în cele din urmă un rezultat care poate să nu fie ceea ce doriți Imaginați-vă o IA stupidă și atotputernică antrenată prin coborâre în gradient cu o funcție țintă greșită: "maximizați bogăția medie a tuturor oamenilor vii" Pentru a face lucrurile mai ușor pentru sine, o astfel de IA ar putea șterge pe toți, în afară de câțiva oameni, și se poate concentra pe bunăstarea celor care rămân, deoarece bunăstarea medie nu depinde de numărul celor care rămân Este posibil ca rezultatul să nu fie cel pe care îl aveai în minte! Amintiți-vă că toate rețelele neuronale pe care le construiți vor fi la fel de nemiloase în reducerea la minimum a funcției de pierdere, așa că alegeți-vă ținta cu înțelepciune sau veți întâlni efecte secundare neașteptate Din fericire, pentru probleme generale, cum ar fi clasificarea, regresia și predicția secvenței, există linii directoare simple care pot fi urmate atunci când alegeți o funcție de pierdere De exemplu, pentru clasificarea în două categorii, puteți folosi funcția binară de entropie încrucișată, pentru clasificarea în mai multe categorii - entropie încrucișată multivalorică, pentru probleme de regresie - eroare pătratică medie, pentru antrenament pe secvențe - clasificare temporală asociativă (Connectionist Temporal Clasificare, CTC), etc Numai atunci când vă confruntați cu probleme de cercetare cu adevărat noi va trebui să vă dezvoltați funcțiile obiective În următoarele câteva capitole, vom explica în detaliu ce funcții de pierdere să alegeți pentru o gamă largă de probleme tipice Introducere în Keras Pe parcursul cărții, exemplele de cod vor folosi cadrul Keras (https://keras io) Keras este un cadru de suport pentru învățarea profundă pentru Python, care oferă o modalitate convenabilă de a construi și antrena aproape orice model de învățare profundă Keras a fost dezvoltat inițial pentru cercetători pentru a le permite să efectueze rapid experimente Keras are următoarele caracteristici cheie: □ vă permite să executați același cod pe CPU sau GPU; □ are un API prietenos care simplifică dezvoltarea de prototipuri de modele de deep learning; Capitolul Începeți cu rețelele neuronale □ include suport încorporat pentru rețele convoluționale (pentru recunoașterea modelelor), rețele recurente (pentru procesarea secvențelor) și diferitele lor combinații; □ include suport pentru arhitecturi de rețea arbitrare: modele cu mai multe intrări sau ieșiri, partajare de straturi, partajare de modele etc Aceasta înseamnă că Keras este potrivit pentru construirea aproape oricărui model de învățare profundă, de la rețele generative adversare ) la o mașină Turing neuronală Cadrul Keras este distribuit sub o licență gratuită și poate fi folosit gratuit în proiecte comerciale Este compatibil cu orice versiune de Python, de la la (de la jumătatea anului ) Există peste de utilizatori Keras, de la cercetători academicieni și ingineri de la startup-uri și companii mari până la studenți absolvenți și pasionați Keras este folosit de Google, Netflix, Uber, CERN, Yelp, Square și sute de startup-uri care rezolvă o gamă largă de probleme Keras este, de asemenea, foarte popular printre competițiile de învățare automată Kaggle, unde aproape toate competițiile recente de deep learning au fost câștigate folosind modele Keras Orez Creșterea numărului de interogări de căutare pentru diferite cadre de învățare profundă conform Google Keras, TensorFlow, Theano și CNTK Keras este o bibliotecă la nivel de model care oferă blocuri de construcție la nivel înalt pentru construirea de modele de învățare profundă Nu implementează operații de nivel scăzut, cum ar fi manipularea și diferențierea tensoriilor - folosește un instrument specializat și optimizat Introducere în Keras biblioteca suport tensori În același timp, Keras nu se bazează pe nicio bibliotecă de suport pentru tensori, ci folosește o abordare modulară (Fig ); adică mai multe biblioteci diferite de nivel scăzut pot fi conectate la cadrul Keras În prezent sunt acceptate trei astfel de biblioteci: TensorFlow, Theano și Microsoft Cognitive Toolkit (CNTK) În viitor, Keras va fi probabil extins cu mai multe mecanisme de sprijin pentru învățarea profundă la nivel scăzut Orez Deep Learning Support Stack TensorFlow, CNTK și Theano sunt unele dintre cele mai importante platforme de învățare profundă în acest moment Theano (http://deepleaming net/software/theano) este dezvoltat de laboratorul MILA de la Universitatea din Montreal, TensorFlow (www tensorflow org) este dezvoltat de Google și CNTK (https://github com/ Microsoft/CNTK) este dezvoltat de Microsoft Orice cod care folosește Keras poate fi rulat cu oricare dintre aceste biblioteci fără a fi nevoie să schimbați nimic din cod: puteți comuta cu ușurință între ele în timpul dezvoltării, ceea ce este adesea util, de exemplu, dacă una dintre biblioteci are performanțe mai bune la rezolvarea unei anumite biblioteci problemă sarcină specifică Vă recomandăm să utilizați biblioteca TensorFlow în mod implicit, deoarece este cea mai utilizată, scalabilă și cea mai de înaltă calitate bibliotecă Folosind TensorFlow (Theano sau CNTK), Keras poate efectua calcule atât pe CPU, cât și pe GPU Când rulează pe CPU, TensorFlow însuși folosește o bibliotecă de nivel scăzut de operații specializate cu tensori numită Eigen (http://eigen tuxfamily org) Când rulează pe un GPU, TensorFlow utilizează o bibliotecă optimizată numită NVIDIA CUDA Deep Neural Network (cuDNN) Dezvoltarea cu Keras: o scurtă prezentare Ați văzut deja un exemplu de model Keras: în exemplul de cifre scrise de mână din setul MNIST Iată cum arată un proces tipic de utilizare Keras: Sunt definite datele de antrenament: tensori de intrare și țintă Sunt determinate straturile rețelei (model) care mapează datele de intrare la cele țintă Capitolul Începeți cu rețelele neuronale Procesul de învățare este configurat prin selectarea funcției de pierdere, a optimizatorului și a unor parametri de monitorizare Iterează peste datele de antrenament apelând metoda fit() a modelului Modelul poate fi definit în două moduri: folosind clasa Sequential (doar pentru o stivă liniară de straturi - cea mai populară arhitectură de rețea în prezent) sau un API funcțional (pentru un grafic de strat aciclic direcționat care vă permite să construiți arhitecturi arbitrare) Ca o reamintire, iată definiția unui model cu două straturi folosind clasa Sequential (rețineți că primului strat i se trece forma așteptată a intrării): din modelele de import keras din straturi de import keras model = modele Sequential() model add(layers Dense( , activation='relu', input shape=( ,))) model add(layers Dense( , activation='softmax')) Și iată același model, dar construit folosind API-ul funcțional: input tensor = layers Input(shape=( ,)) x = layers Dense( , activation='relu')(input tensor) output tensor = layers Dense( , activation='softmax')(x) model = modele Model(inputs=input tensor, outputs=output tensor) API-ul funcțional vă permite să manipulați datele din tensorii pe care modelul îi prelucrează și să aplicați straturi acelor tensori ca și cum ar fi funcții NOTĂ Funcționalitatea API-ului funcțional este descrisă în detaliu în Capitolul Până la acest capitol, vom folosi doar clasa Sequential în exemplele noastre Odată definită arhitectura, nu contează dacă utilizați modelul secvențial sau API-ul funcțional În ambele cazuri, se parcurg aceiași pași Procesul de instruire este stabilit în etapa de compilare Acesta specifică optimizatorul și funcțiile de pierdere care vor fi utilizate de model, precum și orice măsurători de monitorizat în timpul antrenamentului Iată un exemplu cu o singură funcție de pierdere care este folosită cel mai des: de la Keras Import Optimizers model compile(optimizer=optimizers RMSprop(lr= ), loss='mse', metrics=['acuratețe']) Configurarea unei stații de lucru Deep Learning În cele din urmă, procesul de învățare în sine constă în transmiterea matricelor Numpy cu date de intrare (și datele țintă corespunzătoare) la metoda fit() a modelului, similar altor biblioteci de învățare automată, cum ar fi Scikit-Learn: model fit(input tensorj target tensor\ batch size= j epochs= ) În următoarele câteva capitole, vom analiza ce arhitecturi de rețea se aplică la care probleme, cum să alegem configurația potrivită de antrenament și cum să reglam modelul pentru a obține rezultatele dorite În Secțiunile , și , ne vom uita la trei exemple simple: clasificări cu două clase, clasificări cu mai multe clase și regresii Configurarea unei stații de lucru Deep Learning Înainte de a începe să dezvoltați aplicații de deep learning, trebuie să vă configurați stația de lucru Este recomandat, deși nu este necesar, să utilizați un GPU NVIDIA modern pentru a rula cod care implementează învățarea profundă Unele aplicații, în special procesarea imaginilor folosind rețele convoluționale și procesarea secvenței folosind rețele neuronale recurente, prezintă performanțe extrem de slabe pe CPU, uneori pe cele cu mai multe nuclee foarte rapide Și chiar și pentru aplicațiile care ar putea rula bine pe un procesor, rularea pe un GPU modern oferă adesea o creștere a vitezei de aproximativ - ori Dacă nu doriți sau nu puteți instala un GPU pe computer, vă recomandăm să experimentați pe o instanță GPU AWS EC sau Google Cloud Platform Dar rețineți că instanțele GPU în cloud pot deveni mai scumpe în timp Indiferent de alegerea unei stații locale sau cloud, este mai bine să utilizați o stație de lucru UNIX Este posibil din punct de vedere tehnic să utilizați Keras pe Windows (toate cele trei biblioteci utilizate de cadrul Keras acceptă Windows), dar nu vă recomandăm să faceți acest lucru În instrucțiunile de instalare din Anexa A, ne vom uita la un computer Ubuntu Dacă utilizați Windows, instalați Ubuntu pe computer ca un al doilea sistem de operare Poate părea multă muncă, dar utilizarea Ubuntu vă va economisi mult timp și probleme în viitor Rețineți că pentru a utiliza Keras, trebuie să instalați TensorFlow, CNTK sau Theano (sau toate trei dacă doriți să puteți comuta între ele) În această carte, vom folosi TensorFlow și ocazional vom menționa Theano Dar nu ne vom atinge de biblioteca CNTK Capitolul Începeți cu rețelele neuronale Jupyter Notebook: modalitatea preferată de a efectua experimente de învățare profundă Shell-ul interactiv Jupyter Notebook este o modalitate excelentă de a rula experimente de învățare profundă, iar acest instrument este folosit în multe dintre exemplele din această carte Este utilizat pe scară largă în comunitățile de învățare automată și știința datelor Notebook (notebook, se găsește și termenul "notebook" sau "notebook") este un fișier generat de aplicația Jupyter Notebook (https://jupyter org) care poate fi editat în browser Puteți lipi codul Python într-un caiet și să însoțiți rezultatele execuției acestuia cu note cu capacitatea de a formata text Când creați notebook-uri, puteți, de asemenea, împărți un experiment lung în câțiva pași scurti care rulează independent, ceea ce adaugă interactivitate dezvoltării și elimină necesitatea de a rula din nou codul anterior dacă ceva nu merge bine la pasul următor al experimentului Vă recomandăm să utilizați Jupyter Notebook atunci când începeți să utilizați Keras, deși nu este o cerință: puteți rula și script-uri Python de sine stătătoare sau puteți rula cod într-un mediu integrat precum PyCharm Toate exemplele din această carte sunt disponibile ca caiete open source; le puteți descărca de pe site-ul cărții: www manning com/books/deep-learning-with-python Pregătirea Keras: două opțiuni Pentru utilizare practică, vă recomandăm următoarele două opțiuni: □ Folosiți AMI-urile oficiale EC Deep Learning (https://aws amazon com/amazonai/amis) și rulați experimente Keras în EC Jupyter Notebooks Această opțiune este recomandată oricui nu are un GPU pe computerul local În Anexa B veți găsi un ghid pas cu pas care conține procedura de configurare □ Instalați totul de la zero pe o stație de lucru locală care rulează UNIX În acest caz, puteți rula experimente în Jupyter Notebooks local sau puteți rula cod Python obișnuit Această opțiune este recomandată celor care au un GPU NVIDIA de înaltă performanță pe computerul lor local Anexa A conține un ghid pas cu pas care vă ghidează prin procesul de configurare pentru o stație de lucru Ubuntu Și acum să vedem la ce compromisuri trebuie să fii de acord atunci când alegi una sau alta opțiune Configurarea unei stații de lucru Deep Learning Rularea unor joburi de deep learning în cloud: argumente pro şi contra Dacă nu aveți deja un GPU care să poată fi folosit pentru nevoile dvs de deep learning (unul dintre cele mai recente GPU-uri de înaltă performanță ale NVIDIA), atunci experimentarea cu deep learning în cloud este o modalitate ușoară și ieftină de a merge fără a cumpăra niciun hardware suplimentar Când utilizați Jupyter Notebook, lucrul în cloud nu va fi diferit de lucrul pe un computer local De la jumătatea anului , oferta AWS EC era cea mai bună valoare pentru începătorii de deep learning Consultați Anexa B pentru un ghid pas cu pas care descrie cum să rulați experimente cu notebook-uri Jupyter pe o instanță GPU EC Cu toate acestea, pentru cei care sunt serioși în ceea ce privește învățarea profundă, această abordare nu este potrivită - nu va funcționa nici măcar pentru începătorii care se așteaptă să o facă mai mult de câteva săptămâni Instanțele EC sunt prea scumpe: tipul de instanță recomandat în Anexa B (p xlarge, care nu are o mare putere de procesare) costa , USD pe oră la jumătatea anului Între timp, un GPU bun vă va aduce înapoi în jur de - USD Acest preț rămâne stabil, nu crește în timp chiar dacă performanța GPU-ului se îmbunătățește Dacă vă interesează în mod serios deep learning, luați în considerare echiparea stației de lucru cu unul sau mai multe GPU-uri Pur și simplu, opțiunea EC este bună pentru etapa inițială Puteți încerca exemplele din această carte pe o instanță GPU EC Cu toate acestea, dacă decideți să vă ocupați serios de deep learning, obțineți-vă propriile GPU-uri Alegerea unui GPU Deep Learning Dacă decideți să cumpărați un GPU, care este cel mai bun de ales? În primul rând, trebuie să fie un model de la NVIDIA NVIDIA este singura companie de GPU care a investit masiv în deep learning, iar cadrele moderne de deep learning pot rula pe carduri NVIDIA De la jumătatea anului , recomandăm NVIDIA TITAN Xp drept cea mai bună placă de deep learning de pe piață GTX este o alegere de buget Dacă citiți aceste pagini în sau mai târziu, fă-ți timp pentru a căuta cele mai actualizate recomandări, deoarece modele mai bune ies pe piață în fiecare an De acum încolo, vom presupune că aveți acces la un computer cu framework-ul Keras instalat - și toate dependențele acestuia - de preferință echipat cu un GPU Vă rugăm să finalizați acest pas înainte de a continua Citiți ghidurile pas cu pas din aplicații și căutați pe web dacă aveți nevoie de mai mult ajutor În prezent nu există lipsă Capitolul Începeți cu rețelele neuronale Consultați ghidurile de instalare pentru Keras și alte instrumente utilizate pe scară largă în deep learning Acum ne putem scufunda în exemple practice de utilizare a Keras Clasificarea recenziilor de film: un exemplu de clasificare binară Clasificarea în două clase, sau clasificarea binară, este probabil cea mai comună sarcină de învățare automată În acest exemplu, veți învăța cum să clasificați recenziile de filme în pozitive și negative pe baza textului recenziilor Setul de date IMDB Veți lucra cu setul de date IMDB: o colecție de de recenzii diferite de filme în baza de date de filme pe Internet Setul este împărțit în de recenzii de antrenament și de control, fiecare set fiind % negativ și % pozitiv De ce să folosiți două seturi - antrenament și control? Pentru că nu ar trebui să testați niciodată un model de învățare automată pe aceleași date care au fost folosite pentru a-l antrena! Doar pentru că un model funcționează bine pe datele de antrenament nu înseamnă că va funcționa la fel de bine pe date pe care nu le-a văzut niciodată înainte; iar sarcina ta este să creezi un model care să recunoască calitativ datele noi (știi deja la ce clase aparțin datele de antrenament și este destul de clar că nu ai nevoie de un model care să le clasifice) De exemplu, este posibil ca modelul dvs să-și amintească pur și simplu corespondențele dintre eșantioanele de antrenament și țintele lor, ceea ce este complet inutil pentru sarcina de a prezice din date pe care modelul nu le-a văzut niciodată înainte Vom discuta această problemă mai detaliat în capitolul următor La fel ca MNIST, setul de date IMDB vine cu Keras Este gata de utilizare: mărturiile (secvențele de cuvinte) sunt convertite în secvențe de numere întregi, fiecare dintre acestea determinând poziția cuvântului în dicționar Codul din Lista - descarcă un set de date (prima dată când îl rulați, acesta va descărca aproximativ MB de date pe computer) Lista Se încarcă setul de date IMDB din keras datasets import imdb (date tren, etichete tren), (date test, etichete test) = imdb load data( num words= ) Argumentul num words= înseamnă că numai cele de cuvinte găsite cel mai frecvent în setul de feedback de antrenament vor fi stocate în datele de antrenament Clasificarea recenziilor de film: un exemplu de clasificare binară Cuvintele rare vor fi eliminate Acest lucru vă va permite să lucrați cu un vector de dimensiune gestionabil Variabilele train data și test data sunt liste de recenzii; fiecare răspuns este o listă de indici de cuvinte (o reprezentare codificată a secvenței de cuvinte) Variabilele train labels și test labels sunt liste de zerouri și unu, unde zerourile reprezintă feedback negativ, iar cele reprezintă feedback pozitiv ' >>>date tren[ ] [ , , , , , ] >>> etichete de tren[ ] Deoarece ne-am limitat la cele de cuvinte cele mai comune, nu există indici mai mari de în set: >>> max([max(secvență) pentru secvența în date tren]) Pentru a fi mai clar, mai jos este decodificarea uneia dintre recenzii într-o secvență de cuvinte în limba engleză: word index = imdb get word index() reverse word index = dict( -[(valoare, cheie) pentru (cheie, valoare) decoded review = ' ' join( [reverse word index get(i - , wordjndex este un dicționar care mapează cuvinte cu indici întregi în word index items()]) '?') pentru i în train data[ ]]) Obțineți reprezentarea inversă a indicilor de mapare a dicționarului cu cuvinte Decodificarea feedback-ului Rețineți că indecșii sunt deplasați cu , deoarece indecșii , și sunt rezervați pentru cuvintele "padding" (indent), "începutul secvenței" (începutul secvenței) și "necunoscut" (necunoscut) Pregătirea datelor Nu puteți transmite liste de numere întregi direct unei rețele neuronale Prin urmare, trebuie să le convertim în tensori Puteți face acest lucru în două moduri: □ Transmiteți toate listele la aceeași lungime, convertiți-le în tensori întregi cu formă (modele, indici cuvinte), apoi treceți-le la primul strat de rețea capabil să gestioneze astfel de tensori întregi (stratul de încorporare, despre care vom vorbi în continuare) detalii mai târziu în această carte) □ Codificați direct listele în vectori de zerouri și unu Aceasta ar putea însemna, de exemplu, convertirea secvenței [ , ] într-un vector de de dimensiuni, ale cărui elemente conțin zerouri, cu excepția elementelor de la indicii și , care conțin unu Apoi pot fi trecute la primul strat al rețelei Capitolul Începeți cu rețelele neuronale de tip Dens, capabil să manipuleze date vectorizate cu numere reale Vom merge pe a doua cale, cu date vectorizate, pe care le vom crea manual pentru a fi mai clare Lista Codificarea secvențelor de numere întregi într-o matrice binară import numpy ca pr Creați matrice cu fore-def vectorize sequences(sequencesj dimension= ): my(len(sequences), rezultate = np zeros((dimensiunea len(secvențe)j)) ◄ - dimensiune) pentru secvența ij în enumerate(secvențe): rezultate [secvența ij] = ◄ Scrierea unei unități în elementul la indexul dat returnează rezultatele x tren = vectorizați secvențe (datele trenului) ◄ - Date de antrenament vectorizate x test = vectorizați secvențe (date test) ◄ - Date test vectorizate Iată cum arată acum mostrele: >>> x train[ ] matrice([ d I d I d d d d ]) De asemenea, trebuie să vectorizăm etichetele, ceea ce este foarte ușor de făcut: y train = np asarray(train labels) astype('float ') y test = np asarray(test labels) astype('float ') Acum datele sunt gata pentru a fi transferate în rețeaua neuronală Proiectarea rețelei Datele de intrare sunt reprezentate de vectori, iar etichetele sunt scalari (unu și zero): acesta este cel mai simplu set de date pe care îl puteți găsi Rețelele organizate ca un simplu teanc de straturi complet conectate (Dense) cu operația de activare relu: Dense( , activation='relu') fac o treabă excelentă în acest tip de sarcină Argumentul ( ) transmis fiecărui strat Dens este numărul de neuroni ascunși din strat O unitate ascunsă este o dimensiune din spațiul de vizualizare al stratului După cum sa discutat în Capitolul , fiecare strat Dens cu o operație de activare relu implementează următorul lanț de operații tensoare: ieșire = relu(punct(Wj intrare) + b) Prezența a neuroni ascunși înseamnă că matricea de greutate W va fi de forma (input dimension, ): produsul punctual pe W va proiecta datele de intrare într-un spațiu de reprezentare cu dimensiuni (atunci adăugarea cu vectorul de deplasare b va fi efectuate si se va efectua operatia relu) Dimensiunea spațiului de reprezentare poate fi interpretată ca "gradul de libertate al rețelei neuronale în învățarea reprezentărilor interne" Mai mulți neuroni ascunși Clasificarea recenziilor de film: un exemplu de clasificare binară (dimensiunea mai mare a spațiului de reprezentare) permite rețelei să se antreneze pe reprezentări mai complexe, dar acest lucru crește costul de calcul al rețelei, ceea ce poate duce la identificarea de modele nedorite (modele care pot îmbunătăți calitatea clasificării datelor de antrenament, dar nu sunt date de control) Această stivă de straturi dense necesită două decizii arhitecturale importante: □ câte straturi să folosiți; □ câți neuroni ascunși să alegeți pentru fiecare strat Capitolul prezintă principii formale pentru a vă ajuta să faceți alegeri Între timp, poți avea încredere în mine doar în următoarea alegere: □ două straturi intermediare cu câte neuroni ascunși; □ Al treilea strat va scoate o valoare scalară - o estimare a direcției feedback-ului curent Straturile intermediare vor folosi operația relu ca funcție de activare, iar ultimul strat va folosi funcția de activare sigmoidală și va scoate o probabilitate (o estimare a probabilității, între și , ca eșantionul să fie în clasa " ", adică cât de aproape este de un feedback pozitiv) Funcția relu (unitate liniară rectificată) este utilizată pentru a converti valorile negative la zero (Figura ), iar funcția sigmoidă dispersează valori arbitrare pe intervalul [ > ] (Figura ), returnând valori care poate fi interpretat ca probabilitate Orez Funcția bloc de distilare liniară Capitolul Începeți cu rețelele neuronale , Orez Funcția sigmoidă O Ieșire (probabilitate) Intrare (text vectorizat) Orez rețea cu trei straturi Pe fig arată cum arată rețeaua Implementarea acestei rețele folosind Keras seamănă cu exemplul MNIST pe care l-am văzut mai devreme Lista Definirea modelului din modelele de import keras din straturi de import keras model = modele Sequential() model add(layers Dense( j activation='relu', input shape=( j))) model add(layers Dense( j activation='relu')) model add(layers Dense(lj activation='sigmoid')) Clasificarea recenziilor de film: un exemplu de clasificare binară CE SUNT FUNCȚIILE DE ACTIVARE ȘI DE CE AU NEVOIE? Fără o funcție de activare, cum ar fi relu (numit și factor de neliniaritate), stratul Dens va consta din două operații liniare - produs punctual și adăugare: ieșire = punct (W, intrare) + b Un astfel de strat poate fi antrenat doar pe transformări liniare (afine) ale datelor de intrare: spațiul de ipoteze al stratului ar fi colecția tuturor transformărilor liniare posibile ale datelor de intrare într-un spațiu de dimensiuni Un astfel de spațiu de ipoteză este prea limitat și stivuirea mai multor straturi de reprezentări una peste alta nu ar aduce niciun beneficiu, deoarece o stivă adâncă de straturi liniare implementează totuși o operație liniară: adăugarea de noi straturi nu extinde spațiul ipotezelor Pentru a avea acces la un spațiu de ipoteză mai mare, care oferă beneficii suplimentare din creșterea profunzimii reprezentărilor, este necesar să se aplice o funcție neliniară, sau o funcție de activare Funcția de activare relu este cea mai populară în învățarea profundă, dar există mai multe funcții de activare din care să alegi cu nume ușor ciudate la prima vedere: prelu, elu etc În cele din urmă, trebuie să alegem o funcție de pierdere și un optimizator Deoarece ne confruntăm cu o sarcină de clasificare binară și rezultatul rețelei este o probabilitate (rețeaua noastră se termină cu un strat cu un singur modul cu o funcție de activare sigmoid), este de preferat să folosim funcția de pierdere binary crossentropy Dar aceasta nu este singura alegere acceptabilă: puteți utiliza și, de exemplu, mean squared error Cu toate acestea, entropia încrucișată produce de obicei rezultate mai bune atunci când rezultatele modelelor sunt probabilități Crossentropia este un termen de teoria informației pentru o măsură a distanței dintre distribuțiile de probabilitate sau, în acest caz, dintre datele reale și predicții În acest pas, reglam modelul cu optimizatorul rmsprop și cu funcția de pierdere binary crossent Rețineți că am setat și precizia care trebuie monitorizată în timpul antrenamentului Lista Compilare model model compile(optimizer='rmsprop', loss='binary crossentropy', metrics=['accuracy']) Optimizatorul, funcția de pierdere și valorile sunt transmise ca valori șir, ceea ce este posibil deoarece rmsprop, binary crossentropy și acuratețea fac parte din Keras Uneori este de dorit să ajustați parametrii optimizatorului sau să introduceți propria funcție de pierdere sau valori Prima problemă poate fi rezolvată prin trecerea unei instanțe a clasei de optimizare în argumentul optimizator, așa cum se arată în Listarea , iar ultima problemă prin trecerea obiectului funcție în argumentul pierdere și/sau întâlniri, așa cum se arată în Listarea Capitolul Începeți cu rețelele neuronale Lista Configurarea optimizatorului de la Keras Import Optimizers model compile(optimizer=optimizers RMSprop(lr= ), loss='binary crossentropy', metrics=['acuratețe']) Lista Folosind funcții și valori personalizate de pierdere din pierderi de import keras din valorile de import keras model compile(optimizer=optimizers RMSprop(lr= ), loss=losses binary crossentmountain, metrics=[metrics binary accuracy]) Verificarea soluției Pentru a testa acuratețea modelului în timpul antrenamentului pe date pe care nu le-a mai văzut până acum, vom crea un set de validare prin selectarea a de mostre din setul original de date de antrenament Lista Creați un set de validare x val = x train[: ] parțial x train = x train[ :] y val = y train[: ] partial y train = y train[ :] Acum să antrenăm modelul pentru de epoci (efectuând de iterații peste toate probele din tensorii x train și y train) în loturi de eșantioane În același timp, vom monitoriza pierderea și acuratețea pentru de mostre întârziate Pentru a face acest lucru, este suficient să treceți datele de validare în argumentul validation data Lista Training model model compile(optimizer='rmsprop', loss='binary crossentropy', metrics=[' acc ' ]) history = model fit(partial x trainj part ial y t ra in, epochs= j batch size= j validation data=(x valj y val)) Când utilizați procesorul, fiecare epocă va dura mai puțin de secunde - și toate antrenamentele se vor încheia în de secunde La sfârșitul fiecărei epoci, antrenamentul se întrerupe deoarece modelul calculează pierderea și precizia pe de mostre de date de validare Clasificarea recenziilor de film: un exemplu de clasificare binară Rețineți că apelul la model fit() returnează un obiect History Acest obiect are un câmp de istorie - un dicționar cu date despre tot ce s-a întâmplat în timpul procesului de antrenament Să ne uităm la el: >>> history dict = istorie istorie >>> history dict keys() [u'acc'j u'loss', u'val acc', u'val loss'] Dicționarul conține patru articole, câte unul pentru fiecare măsură, care au fost monitorizate în timpul instruirii și validării Următoarele două listări folosesc biblioteca Matplotlib pentru a reprezenta grafice cu pierderi (Figura ), precum și graficele cu precizie de antrenament și validare (Figura ) Rețineți că rezultatele dvs pot varia ușor din cauza diferențelor dintre numerele aleatorii utilizate pentru a inițializa rețeaua Lista Graficul pierderilor în timpul fazelor de instruire și validare import matplotlib pyplot ca plt history dict = history history loss values = history dict['pierdere'] val loss values = history dict['val loss'] epoci = interval(l, len(acc) + ) "bo" înseamnă "punct albastru" - "punct albastru" plt plot(epochs, loss values,, 'bo', label='Pierdere de antrenament')- >>rezultate [ , , , ] Această soluție cea mai simplă ne-a permis să obținem o precizie de %> Când se utilizează cele mai moderne abordări, precizia poate ajunge până la %> Utilizarea unei rețele instruite pentru predicții pe date noi După instruirea rețelei, aceasta poate fi folosită pentru a rezolva probleme practice De exemplu, să încercăm să anticipăm probabilitatea ca recenziile să fie pozitive utilizând metoda predicției: >>> model predict(x test) matrice([[ , ] [ , ] [ , ] [ , ] [ , ] [ , ]], dtype=float ) După cum puteți vedea, rețeaua este încrezătoare în unele mostre ( , sau mai mare sau , sau mai mică), dar nu atât de încrezătoare în altele ( , ; , ) Experimente suplimentare Următoarele experimente vă vor ajuta să vă asigurați că alegerea exactă a acestor parametri de arhitectură de rețea a fost suficient de rezonabilă, deși există loc de îmbunătățire inca ramane Capitolul Începeți cu rețelele neuronale □ În acest exemplu, au fost utilizate două straturi ascunse Încercați unul sau trei și vedeți cum afectează precizia în timpul fazelor de instruire și validare □ Încercați straturi cu mai mulți sau mai puțini neuroni ascunși: de neuroni, de neuroni etc □ Încercați să utilizați funcția de pierdere mse în loc de binary crossentropy □ Încercați să utilizați funcția de activare tanh în loc de relu (era populară în primele zile ale rețelelor neuronale) Rezumând Iată concluziile pe care ar trebui să le trageți din acest exemplu: □ De regulă, datele inițiale trebuie să fie supuse unei preprocesări pentru a le trece în rețeaua neuronală sub formă de tensori Secvențele de cuvinte pot fi convertite în vectori binari, dar există și alte opțiuni □ Stiva de strat dens cu activare relu este capabilă de o gamă largă de sarcini (inclusiv clasificarea sentimentelor) și este probabil combinația pe care o veți folosi cel mai des □ Într-o problemă de clasificare binară (cu două clase de ieșire), la sfârșitul rețelei dumneavoastră neuronale ar trebui să existe un strat Dens cu un neuron și o funcție de activare sigmoid: rezultatul rețelei ar trebui să fie o valoare scalară între și reprezentând probabilitatea □ Cu un astfel de rezultat scalar obținut folosind funcția sigmoid, în problemele de clasificare binară, funcția de pierdere ar trebui utilizată bina ry crossent mountain □ În general, optimizatorul rmsprop este cea mai potrivită alegere pentru orice tip de problemă O durere de cap mai puțin pentru tine □ Pe măsură ce rețelele neuronale își îmbunătățesc datele de antrenament, mai devreme sau mai târziu încep să se supraadapte, demonstrând performanțe mai slabe la datele pe care nu le-au văzut până acum Prin urmare, monitorizați întotdeauna performanța rețelei pe date nu din setul de antrenament Clasificarea fluxurilor de știri: un exemplu de clasificare în mai multe clase În secțiunea anterioară, ați văzut cum puteți clasifica vectorii de intrare în două clase care se exclud reciproc folosind o rețea neuronală complet conectată Dar dacă numărul de clase este mai mare de două? Clasificarea fluxurilor de știri: un exemplu de clasificare în mai multe clase În această secțiune, vom crea o rețea pentru a clasifica fluxurile de știri Reuters în de subiecte care se exclud reciproc Deoarece numărul de clase este acum mai mare de două, această problemă este clasificată ca o problemă de clasificare multiclasă și, deoarece fiecare instanță de date trebuie să fie atribuită unei singure clase, această problemă este un exemplu de clasificare multiclasă neambiguă Dacă fiecare instanță de date ar putea aparține mai multor clase (în acest caz, subiecte), această problemă ar fi un exemplu de clasificare multiclasă cu mai multe valori Setul de date Reuters Vom lucra cu setul de date Reuters, o selecție de fluxuri de știri și subiectele acestora publicate de Reuters în Acesta este un set simplu de date utilizat pe scară largă pentru clasificarea textului Există de teme diferite; unele subiecte sunt mai larg reprezentate, altele mai puțin, dar pentru fiecare dintre ele există cel puțin exemple în setul de instruire La fel ca IMDB și MNIST, setul de date Reuters vine cu Keras Să aruncăm o privire Lista Se încarcă datele Reuters din keras datasets import reuters (date tren, etichete tren), (date test, etichete test) = reuters load data( num words= ) Similar cu exemplul IMDB, argumentul num words= limitează datele la cele de cuvinte care apar cel mai frecvent În total, avem de instruire și de cazuri de testare: >>> len(datele tren) >>> len(date test) Similar cu recenziile din baza de date IMDB, fiecare exemplu este o listă de numere întregi (indexuri de cuvinte): >>>date tren[ ] [ , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ] Iată cum să decodați indicii în cuvinte dacă acest lucru vă interesează Capitolul Începeți cu rețelele neuronale Lista Decodificarea știrilor înapoi în text word index = Reuters get word index() reverse word index = dict([(valoare, cheie) pentru (cheie, valoare) în word index items()]) decoded newswire = ' ' join([reverse word index get(i - , '?') for i in train data[ ]]) ◄ - Rețineți că indecșii sunt deplasați cu , deoarece indecșii , și sunt rezervați pentru cuvintele "padding" (indent), "start of sequence" (începutul secvenței) și "necunoscut" (necunoscut) Eticheta care definește clasa exemplului este un număr întreg între și - indexul subiectului: >>>etichete tren[ ] Pregătirea datelor Puteți reutiliza codul din exemplul anterior pentru a vectoriza datele Lista Codificarea datelor import numpy ca ex def vectorize sequences(sequencesj dimension= ): rezultate = np zeros((len(secvențe)j dimensiune)) pentru secvența ij în enumerate(secvențe): rezultate[secvența ij] = returnează rezultatele x tren = vectorizați secvențe (datele trenului) ◄ Date de antrenament vectorizate x test = vectorizați secvențe (date test) ◄ Date test vectorizate Etichetele pot fi vectorizate în unul din două moduri: stocați-le într-un tensor întreg sau folosiți codificarea directă Codificarea directă (codificare one-hot) este utilizată pe scară largă pentru formatarea categoriilor și este numită și codificare categorială Codificarea directă este explicată mai detaliat în Secțiunea În acest caz, codificarea directă a etichetelor este de a construi un vector de element nul cu valoarea la elementul al cărui index se potrivește cu indexul etichetei De exemplu: def to one hot(etichete, dimensiune= ): rezultate = np zeros((len(labels)j dimension)) pentru ij labei în enumerate(labels): rezultate[ijlabei] = returnează rezultatele one hot train labels = to one hot(train labels) one hot test labels = to one hot(test labels) Clasificarea fluxurilor de știri: un exemplu de clasificare în mai multe clase Trebuie remarcat faptul că acest mod este deja implementat în Keras, așa cum am văzut în exemplul MNIST: din keras utils np utils import to categorical one hot train labels = to categorical(train labels) one hot test labels = to categorical(test labels) Date de antrenament vectorizate Date de control vectorizate Proiectarea rețelei Sarcina de clasificare a subiectelor este similară cu sarcina anterioară de clasificare a revizuirii: în ambele cazuri, încercăm să clasificăm bucăți scurte de text Dar în acest caz, numărul claselor de ieșire a crescut de la la Dimensiunea spațiului de ieșire este acum mult mai mare Într-un teanc de straturi Dense, ca în exemplul anterior, fiecare strat are acces doar la informațiile furnizate de stratul anterior Dacă un strat renunță la unele informații care sunt importante pentru rezolvarea problemei de clasificare, straturile ulterioare nu le vor putea restaura: fiecare strat poate deveni un blocaj pentru informații În exemplul anterior, am folosit straturi intermediare cu dimensiuni, dar spațiul cu dimensiuni poate fi prea limitat pentru a fi clasificat în de clase diferite: astfel de straturi de dimensiuni mici pot acționa ca un "gât de sticlă" pentru informații fără a pierde date importante Din acest motiv, în acest exemplu, vom folosi straturi cu un număr mare de dimensiuni Să selectăm de neuroni Lista Definirea modelului din keras import modele din keras import layers model = modele Sequential() model add(layers Dense( j activation='relu', input shape=( j))) model add(layers Dense( j activation='relu ')) model add(layers Dense( , activation='softmax')) Remarcăm încă două caracteristici ale acestei arhitecturi: □ Rețeaua se termină cu un strat Dens de dimensiunea Aceasta înseamnă că pentru fiecare eșantion de intrare, rețeaua va scoate un vector cu de dimensiuni Fiecare element al acestui vector (fiecare dimensiune) este o clasă de ieșire separată □ Ultimul strat folosește funcția de activare softmax Am văzut deja acest model în exemplul MNIST Înseamnă că rețeaua va scoate distribuția de probabilitate pentru de clase diferite - pentru fiecare eșantion la intrare, rețeaua va returna un vector cu de dimensiuni, unde output[i] este probabilitatea ca eșantionul să aparțină clasei i Suma a de elemente va fi întotdeauna egală cu Capitolul • Noțiuni introductive despre rețelele neuronale Cea mai bună opțiune în acest caz este să utilizați funcția de pierdere categorical crossentropy Acesta definește distanța dintre distribuțiile de probabilitate: în acest caz, între distribuția de probabilitate la ieșirea rețelei și distribuția adevărată a etichetei Minimizând distanța dintre aceste două distribuții, învățăm rețeaua să scoată un rezultat cât mai aproape de etichetele adevărate Lista Compilare model model compile(optimizer='rmsprop', loss='categoric crossentropie', metrics=['acuratețe']) Verificarea soluției Pentru a verifica acuratețea modelului, vom crea un set de testare selectând de mostre din setul de date de antrenament Lista Creați un set de validare x val = x train[: ] parțial x train = x train[ :] y val = one hot train labels[: ] partial y train = one hot train labels[ :] Acum să antrenăm modelul pentru de epoci Lista Training model istoric = model fit(partial x train, par rt ial y tra in, epochs= , batch size= , validation data=(x val, y val)) În cele din urmă, să trasăm curbele de pierdere și acuratețe (Figurile și ) Lista Graficul pierderilor în timpul fazelor de instruire și validare import matplotlib pyplot ca plt loss = history historyf'pierdere ' ] val loss = history historyf'val loss'] epoci = interval(l, len(pierdere) + ) plt plot(epochs, loss, 'bo', label='Training loss') plt plot(epochs, val loss, 'b', label='Validare pierdere') plt title('Training and validation loss') plt xlabel('Epochs') plt ylabel('Loss') plt legend( ) plt show() Clasificarea fluxurilor de știri: un exemplu de clasificare în mai multe clase Orez Pierderi în fazele de pregătire și validare Orez Acuratețe în fazele de instruire și verificare Lista Trasare cu acuratețe în timpul antrenamentului și validării plt clf() ◄ Desenul clar ase = istorie istorie[ 'ase' ] val acc = history history['val acc'] plt plot(epochs, as, 'bo', label='Training as') plt plot(epochs, val accj b', label='Validare as') plt title('Acuratețe de antrenament și validare') plt xlabel('Epoche') plt уlabei('Acuratețe') plt legend() plt show() Recalificarea rețelei are loc în epoca a noua Să antrenăm acum o nouă rețea până în epoca a noua și apoi să evaluăm rezultatul pe datele testului Capitolul Începeți cu rețelele neuronale Lista Antrenează un nou model de la zero model = modele Sequential() model add(layers Dense( , activation='relu', input shape=( ,))) model add(layers Dense( , activation='relu')) model add(layers Dense( , activation='softmax')) model compile(optimizer='rmsprop', loss='categoric crossentropie', metrics=['acuratețe']) model fit(partial x train, parte rt ial y trai n, epoci= , batch size= , validation data=(x val, y val)) rezultate = model evaluate(x test, one hot test labels) Rezultate finale: >>>rezultate [ , , , ] Această soluție a obținut o precizie de - %> Cu o problemă de clasificare binară echilibrată, precizia unui clasificator pur aleatoriu ar fi de % Cu toate acestea, în acest caz, este aproape de %, adică rezultatul s-a dovedit a fi destul de bun, cel puțin în comparație cu o soluție aleatorie: >>> import gunoi >>> test labels copy = copy copy(test labels) >>> ex random shuffle(test labels copy) >>> hits array = np array(test labels) == np array(test labels copy) >>> float(np sum(hits array)) / len(test labels) , Predicții asupra datelor noi Acum putem verifica că metoda de predicție a modelului returnează distribuția de probabilitate pentru toate cele de subiecte Să generăm predicții pentru toate datele de control Lista Obținerea de predicții pentru date noi predictions = model predict(x test) Fiecare element din predicții este un vector cu lungimea : >>> previziuni[ ] forma ( ) Clasificarea fluxurilor de știri: un exemplu de clasificare în mai multe clase Suma coeficienților acestui vector este : >>> np sum(predicții[ ]) Cel mai mare element, elementul cu cea mai mare probabilitate, este clasa prezisă: >>> np argmax(predicții[ ]) Un alt mod de a gestiona semnele și pierderile S-a menționat mai sus că etichetele pot fi, de asemenea, convertite într-un tensor de numere întregi, după cum se arată mai jos: y train = np array(train labels) y test = np array(test labels) Singurul lucru care s-a schimbat în acest caz este funcția de pierdere Lista - a folosit funcția de pierdere categorical crossentropy, care presupune că etichetele sunt obținute prin codificarea categoriei Cu etichete întregi, utilizați funcția sparse categorical crossentropy: model compile(optimizer='rmsprop', loss='sparse categorical crossentropy', metrics=[' acc ' ]) Din punct de vedere matematic, această nouă funcție de pierdere este echivalentă cu funcția categorical crossentropy; diferă doar în interfață Importanța utilizării straturilor intermediare suficient de mari S-a spus deja mai sus că nu ar trebui să folosiți straturi care au semnificativ mai puțin de de neuroni ascunși, deoarece rezultatul este -dimensional Acum să vedem ce se întâmplă dacă există un blocaj pentru informații din cauza straturilor intermediare cu dimensiuni mult mai mici de , de exemplu, cu patru dimensiuni Acum, rețeaua arată o precizie de - % - scăderea absolută a fost de % Această cădere se datorează în principal unei încercări de a comprima o cantitate mare de informații (suficiente pentru a reconstrui hiperplanele care separă de clase) într-un spațiu intermediar cu dimensiune prea mică Web-ul a reușit să încadreze majoritatea informațiilor necesare în aceste reprezentări D, dar nu toate Capitolul Începeți cu rețelele neuronale Lista Model de blocaj de informații model = modele Sequential() model add(layers Dense( , activation='relu', input shape=( ,))) model add(layers Dense( , activation='relu')) model add(layers Dense( , activation='softmax')) model compile(optimizer='rmsprop', loss='categoric crossentropie', metrics=['acuratețe']) model fit(partial x train, parte rt ial y trai n, epoci= , batch size= , validation data=(x val, y val)) Experimente suplimentare ▸ Încercați straturi cu mai multe sau mai puține dimensiuni: , etc □ Am folosit două straturi ascunse Acum încercați să utilizați un strat sau trei Rezumând Iată concluziile pe care ar trebui să le trageți din acest exemplu: □ Dacă încercați să clasificați eșantioanele de date în N clase, rețeaua trebuie să se încheie cu un strat Dens de dimensiunea N □ Într-o problemă de clasificare multiclasă neambiguă, stratul final al rețelei trebuie să aibă o funcție de activare softmax, astfel încât să poată deduce o distribuție de probabilitate între N clase □ Aproape întotdeauna ar trebui să utilizați funcția de pierdere categorical crossentropy pentru a rezolva probleme ca aceasta Minimizează distanța dintre distribuțiile de probabilitate deduse de rețea și distribuțiile de obiective adevărate □ Etichetele dintr-o clasificare multiclasă pot fi tratate în două moduri: • Codificați etichetele utilizând metoda de codificare a categoriilor (cunoscută și ca codificare directă) și utilizați funcția de pierdere categorical crossentropy • Codificați etichetele ca numere întregi și utilizați funcția sparse categorical crossentropy loss Predicția prețului casei: Exemplul de regresie □ Când trebuie să clasificați datele în raport cu un număr mare de categorii, ar trebui să preveniți blocajele de informații în rețea din cauza straturilor cu dimensiuni insuficiente Previziunea prețului casei: exemplu de regresie În cele două exemple anterioare, am văzut probleme de clasificare al căror scop a fost să prezică o singură etichetă discretă pentru un eșantion de date de intrare Un alt tip comun de problemă de învățare automată este regresia, care constă în prezicerea nu a unei etichete discrete, ci a unei valori pe o linie numerică continuă: de exemplu, prezicerea temperaturii aerului pentru ziua de mâine din datele meteorologice disponibile sau prezicerea timpului de finalizare a unui proiect software conform specificaţiilor sale NOTĂ Nu confundați regresia cu algoritmul de regresie logistică În mod ciudat, regresia logistică nu este un algoritm de regresie - este un algoritm de clasificare Set de date privind prețurile caselor din Boston Vom încerca să prezicem prețul mediu al caselor în suburbiile Boston la mijlocul anilor din datele despre suburbiile de la acea vreme, cum ar fi ratele criminalității, ratele impozitelor pe proprietate locală și așa mai departe Setul de date pe care îl vom folosi are un aspect interesant diferenta fata de cele doua anterioare exemple Conține relativ puține mostre de date: în total, împărțite în eșantioane de antrenament și de eșantioane de control Și fiecare caracteristică din datele de intrare (de exemplu, rata criminalității) are propria sa scară De exemplu, unele caracteristici sunt proporții și au valori între și , altele între și și așa mai departe Lista Se încarcă setul de date Boston din keras datasets import boston housing (date tren, ținte tren), (date test, ținte test) = -"boston housing load data() Să ne uităm la date: >>> train data shape( , ) >>> test data shape ( , ) Capitolul Începeți cu rețelele neuronale După cum puteți vedea, avem eșantioane de instruire și de control, fiecare cu caracteristici numerice, cum ar fi rata criminalității, numărul mediu de camere per casă, distanța față de drumurile principale etc Țintele sunt prețurile medii ale caselor ocupate de proprietari, în mii de dolari: >>>tren ţinte [ , , , , ] Prețurile în vrac sunt în intervalul de la la de dolari SUA Dacă acest lucru vi se pare ieftin, rețineți că acestea sunt prețuri de la mijlocul anilor și nu au fost ajustate pentru inflație Pregătirea datelor Ar fi problematic să se transmită rețelei neuronale valori care au intervale foarte diferite Rețeaua, desigur, se va putea adapta automat la astfel de date eterogene, dar acest lucru va complica antrenamentul În practică, se obișnuiește să se aplice normalizarea acestor date: pentru fiecare caracteristică din datele de intrare (coloana din matricea datelor de intrare), media pentru această caracteristică este scăzută din fiecare valoare, iar diferența este împărțită la abaterea standard, ca urmare, caracteristica este centrată pe valoarea zero și are o abatere standard, egală cu unu Acest tip de normalizare este ușor de făcut cu Numpy Lista Normalizarea datelor medie = tnain data mean(axis= ) train data -= medie std = tnain data std(axis= ) train data /= std date test -= date test medii /= std Rețineți că valorile utilizate pentru normalizarea datelor de control sunt calculate folosind datele de antrenament Nu ar trebui să utilizați niciodată valorile calculate din datele de control în munca dvs , chiar și pentru pași simpli, cum ar fi normalizarea datelor Proiectarea rețelei Datorită numărului mic de mostre, vom folosi o rețea foarte mică cu două straturi intermediare D În general, cu cât sunt mai puține date de antrenament, cu atât va avea loc mai devreme supraadaptarea, iar utilizarea unei rețele mici este o modalitate de a o combate Predicția prețului casei: Exemplul de regresie Lista Definirea modelului din keras import modele din keras import layers def build model(): model = modele Sequential() Deoarece vom avea nevoie de mai multe instanțe ale aceluiași model, am definit o funcție pentru a-l crea model add(layers Dense( , activation='relu', input shape=(train data shape[l]j))) model add(layers Dense( , activation='relu')) model add(straturi dens(l)) model compile(optimizer= 'rmsprop', loss='mse' , metrics=['mae' ]) return model Rețeaua se termină cu un strat unidimensional care nu are o funcție de activare (acesta este un strat liniar) Aceasta este o configurație tipică pentru regresia scalară (al cărei scop este de a prezice o singură valoare pe o dreaptă numerică continuă) Aplicarea unei funcții de activare ar putea limita intervalul de valori de ieșire: de exemplu, dacă o funcție de activare a sigmoidului este aplicată în ultimul strat, rețeaua ar învăța să prezică numai valori cuprinse între și În acest caz, cu o ultimă liniară strat, rețeaua este capabilă să prezică valori din orice interval Rețineți că rețeaua este compilată cu funcția de pierdere mse, mseap squarederror (root mean square error), care calculează pătratul diferenței dintre valorile prezise și țintă Această funcție este utilizată pe scară largă în problemele de regresie De asemenea, am inclus un nou parametru în monitorizarea în timpul fazei de antrenament: mae - echipa de eroare absolută (eroare absolută medie) Aceasta este valoarea absolută a diferenței dintre valorile estimate și cele țintă De exemplu, o valoare MAE de , în această problemă înseamnă că, în medie, previziunile deviază cu USD Evaluarea soluției prin metoda validării încrucișate prin K blocuri Pentru a evalua calitatea rețelei în timp ce îi ajustați parametrii (cum ar fi numărul de epoci de antrenament), puteți împărți datele originale în seturi de antrenament și de testare, așa cum sa făcut în exemplele anterioare Cu toate acestea, deoarece avem deja un set de date mic, setul de validare ar fi prea mic (să zicem, ceva în jur de de mostre) Ca rezultat, scorurile de validare pot varia foarte mult în funcție de ce date sunt incluse în seturile de validare și antrenament: scorurile de validare pot avea prea multe variații Acest lucru nu va permite o evaluare fiabilă a calității modelului Capitolul Începeți cu rețelele neuronale Cea mai bună practică în astfel de situații este să utilizați validarea încrucișată K-fold, așa cum se arată în Figura Esența sa constă în împărțirea datelor disponibile în K blocuri (de obicei K = sau ), crearea K modele identice și antrenarea fiecăruia pe blocuri K- cu o estimare pentru blocurile rămase În funcție de estimările obținute, se calculează valoarea medie care este luată drept estimare a modelului În cod, o astfel de verificare este implementată destul de simplu Datele sunt împărțite în blocuri Orez Validarea încrucișată a trei blocuri Gradul Clasa Clasa Nota finală: medie Lista Validarea încrucișată prin K blocuri import numpy ca pr k = num val samples = len(train data) // la num epochs = toate scorurile = [] Pregătirea datelor de testare: date din blocul numărul k pentru i în intervalul (k): print('procesează fold i) val data = train data[i * num val samples: (i + ) * num val samples] ◄ val targets = train targets[i * num val samples: (i + ) *num val samples] date tren parțiale = np concatenate( [date tren[:i * num val samples] date tren[(i + ) axa= ) ținte tren parțiale = [ținte tren[:i * ținte tren[(i + axa= ) Pregătirea datelor de antrenament: date din restul blocurilor *num val samples:]] ex concatenate( num val samples], ) * num val samples: ]] model = build model() ◄ Construirea unui model Keras (deja compilat) Predicția prețului casei: Exemplul de regresie model fit(partial train dataj partial train targets, - epochs=num epochSj batch size=lj verbose= ) |-► val mse, val mae = model evaluate(val dataj val targetSj verbose= ) all scores append(val mae) Evaluarea modelului în raport cu datele de validare Antrenamentul modelului (în modul silentios, verbose = ) Rularea acestui cod cu num epochs = ne oferă următoarele rezultate: >>> toate scorurile [ , d , ^ , d , ] >>> np mean(all scores) , Diferite runde arată scoruri diferite, de la , la , Media ( ) pare a fi mai fiabilă decât oricare dintre estimările de rulare individuale, iar aceasta este valoarea principală a validării încrucișate a blocului K În acest caz, eroarea medie a fost de USD, ceea ce este destul de mare, având în vedere prețurile cuprinse între USD și USD Să încercăm să creștem timpul de antrenament al rețelei la de epoci Pentru a obține informații despre calitatea antrenării modelului în fiecare epocă, schimbăm bucla de antrenament și adăugăm păstrarea scorului de validare înainte de începerea epocii Pregătirea datelor de testare: date din blocul numărul k Lista Salvați scorul testului înainte de fiecare alergare num epochs = all mae histories = [] pentru i în intervalul (k): print('procesează fold #' val data = train data[i * num val samples: (i + ) * num val samples] ◄ val targets = train targets[i * num val samples: (i + ) * num val samples] date tren parțiale = np [date tren[:i * nui date tren[(i + ) axa= ) ținte tren parțial = [ținte tren[:i * ținte tren[(i + axa= ) model = build model() concatenează( ◄ - i val samples], * num val samples: ]], np concatenate(num val samples] , ) *num val samples:]], Pregătirea datelor de antrenament: date din restul blocurilor Construirea unui model Keras (deja compilat) istoric = model fit(partial train dataJ partial train targets, ◄- validation data=(val dataj val targets)j epochs=num epochSj batch size=lj verbose= ) mae history = history history['val mean absolute error'] all mae histories append(mae history) tăcut, pronunțat = ) Capitolul Începeți cu rețelele neuronale Acum puteți calcula valorile medii ale metricii mae pentru toate rulările Lista Crearea unui istoric al scorurilor medii consecutive la teste prin blocuri K media mae history = [ np mean([x[i] pentru x în all mae histories]) pentru i în interval(num epochs)] Să construim un grafic (Fig ) w >> test mae score Eroarea medie este încă în jur de USD Rezumând Iată concluziile pe care ar trebui să le trageți din acest exemplu: □ Regresia se realizează folosind alte funcții de pierdere decât clasificarea Pentru regresie, o funcție de pierdere este adesea folosită pentru a calcula eroarea medie pătratică (Mean Squared Error, MSE) □ În mod similar, pentru regresie sunt utilizate diferite metrici de evaluare decât pentru clasificare; conceptul de acuratețe nu este aplicabil regresiei, prin urmare, eroarea medie absolută (Mean Absolute Error, MAE) este adesea folosită pentru a evalua calitatea □ Când caracteristicile eșantioanelor de intrare au valori din diferite intervale, acestea trebuie prescalate □ Cu o cantitate mică de date de intrare, metoda de validare încrucișată K-block va ajuta la evaluarea fiabilă a calității modelului □ Cu o cantitate mică de date de antrenament, este de preferat să folosiți rețele mici cu un număr mic de straturi intermediare (de obicei unul sau două) pentru a evita supraadaptarea gravă Scurt rezumat al capitolului □ Acum puteți rezolva cele mai comune probleme de învățare automată pe date vectoriale: clasificare binară, clasificare multiclasă și regresie scalară Secțiunile "Rezumat" de la începutul acestui capitol listează cele mai importante concluzii pe care ar trebui să le trageți din exemplele acestor probleme □ Datele inițiale trebuie de obicei preprocesate înainte de a fi transmise rețelei neuronale □ Când datele includ caracteristici cu valori din diferite intervale, acestea trebuie prescalate □ În procesul de antrenare a rețelelor neuronale, la un moment dat, apare efectul de recalificare, din cauza căruia scade calitatea evaluării rețelei asupra datelor pe care nu le-a văzut până acum Scurt rezumat al capitolului □ Pentru date de intrare mici, utilizați rețele mici cu unul sau două straturi intermediare pentru a evita supraadaptarea severă □ Când datele sunt împărțite într-un număr mare de categorii, este posibil să întâmpinați un blocaj informațional dacă limitați prea mult dimensionalitatea straturilor intermediare □ Regresia utilizează funcții de pierdere și valori diferite decât clasificarea □ Cu o cantitate mică de date de intrare, metoda de validare încrucișată K-block va ajuta la evaluarea fiabilă a calității modelului Fundamentele învățării automate Acest capitol acoperă următoarele subiecte: z forme de învățare automată pentru rezolvarea problemelor dincolo de clasificare și regresie; z proceduri formale de evaluare a modelelor de învățare automată; z pregătirea datelor pentru deep learning; z caracteristică construcție; z lupta împotriva supraantrenării; z este un proces generalizat pentru rezolvarea problemelor de învățare automată După cele trei studii de caz din Capitolul , ar trebui să aveți o înțelegere de bază a modului de rezolvare a problemelor de clasificare și regresie folosind rețele neuronale De asemenea, ai văzut cu ochii tăi principala problemă a învățării automate - supraadaptarea În acest capitol, formalizăm unele dintre noile cunoștințe într-o bază solidă pentru depășirea provocărilor și rezolvarea problemelor de învățare profundă Vom combina toate aceste idei - evaluarea modelului, preprocesarea datelor și ingineria caracteristicilor și metode de combatere a supraadaptării - într-un proces detaliat, în șapte pași, pentru rezolvarea problemelor de învățare automată Patru secțiuni de învățare automată În exemplele anterioare, ați fost introdus în trei tipuri specifice de probleme de învățare automată: clasificarea binară, clasificarea multiclasă și regresia scalară Toate trei sunt exemple de învățare supravegheată în care scopul este de a învăța cum să potriviți datele de antrenament de intrare cu obiectivele de antrenament Patru secțiuni ale învățării automate Învățarea supravegheată este doar vârful aisbergului Învățarea automată este un domeniu vast, cu subdiviziuni complexe Algoritmii de învățare automată se împart în general în patru categorii principale, care sunt descrise în secțiunile următoare învăţare supravegheată Acest caz este de departe cel mai frecvent Esența sa este de a învăța modelul să mapeze datele de intrare la valori țintă cunoscute (uneori numite și adnotări) pe un set de exemple (adesea adnotate de oameni) Toate cele patru exemple pe care le-ați văzut mai devreme în această carte sunt exemple canonice de învățare supravegheată În general, aproape toate aplicațiile moderne ale învățării profunde, cum ar fi recunoașterea modelelor, recunoașterea vorbirii, clasificarea imaginilor și traducerea dintr-o limbă în alta, se încadrează în această categorie Cea mai mare parte a problemelor de învățare supravegheată sunt clasificarea și regresia, dar există mai multe opțiuni exotice, inclusiv următoarele (cu exemple): □ Generarea secvenței - preziceți titlul care o descrie dintr-o imagine dată Generarea secvenței poate fi uneori formulată ca o serie de probleme de clasificare (cum ar fi predicția repetată a cuvântului următor dintr-o secvență) □ Predicție arbore de sintaxă - Având în vedere o propoziție, doriți să preziceți descompunerea acesteia într-un arbore de sintaxă □ Recunoașterea obiectelor - pe imaginea existentă, doriți să desenați cadre în jurul anumitor obiecte Această problemă poate fi exprimată și ca o problemă de clasificare (folosind un set de cadre posibile pentru a clasifica conținutul fiecăruia) sau ca o combinație de clasificare și regresie, când coordonatele cadrelor sunt prezise prin regresie vectorială □ Segmentarea imaginii - construiți o mască de pixeli pentru un anumit obiect folosind o imagine existentă Învățare nesupravegheată Această ramură a învățării automate se referă la găsirea de transformări interesante ale datelor de intrare fără ajutorul oricăror valori țintă pentru nevoile de vizualizare, comprimare a datelor sau dezgomot, sau pentru a înțelege mai bine relațiile dintre date Învățarea nesupravegheată este coloana vertebrală a analizei datelor și este adesea un pas necesar în învățarea despre un set de date înainte de aplicarea metodelor de învățare supravegheată Exemple binecunoscute de învățare nesupravegheată sunt reducerea dimensionalității și gruparea Capitolul Fundamentele învățării automate Învățare auto-supravegheată Acesta este un tip de învățare supravegheată, care are diferențe semnificative și, prin urmare, poate fi separat într-o categorie separată Învățarea auto-supravegheată este supravegheată fără utilizarea etichetelor umane - Învățarea auto-supravegheată poate fi considerată învățare supravegheată fără intervenție umană Există și etichete (altfel această învățare nu ar fi supravegheată), dar acestea sunt generate din datele originale, de obicei folosind algoritmi euristici Un exemplu binecunoscut de învățare auto-supravegheată îl reprezintă codificatoarele automate care generează ținte din date brute, nemodificate În mod similar, încercările de a prezice următorul cadru dintr-o secvență video din cadrele anterioare sau următorul cuvânt din text din cuvintele anterioare pot fi exemple de învățare auto-supravegheată (în acest caz, învățare controlată în timp: controlul vine din datele viitoare) Vă rugăm să rețineți că diferența dintre învățarea supravegheată, autosupravegheată și nesupravegheată poate fi uneori foarte arbitrară - aceste categorii sunt mai degrabă zone fără limite clare Învățarea auto-supravegheată poate fi interpretată ca fiind supravegheată sau nesupravegheată, în funcție de faptul că acordați atenție mecanismului de învățare sau contextului în care este aplicat NOTĂ În această carte, ne vom concentra în mod special pe învățarea supravegheată, deoarece această formă de învățare profundă este de departe cea dominantă și are cel mai larg domeniu de aplicare În capitolele ulterioare, ne vom concentra și pe învățarea auto-supravegheată Consolidarea învățării Acest tip de învățare automată a fost ignorată mult timp până când DeepMind de la Google a reușit să învețe un computer să joace jocuri Atari (și mai târziu Go la cel mai înalt nivel) În învățarea prin întărire, un agent primește informații despre mediul său și învață să aleagă acțiuni care maximizează unele beneficii De exemplu, folosind învățarea prin întărire, puteți obține o rețea neuronală care "se uită" la ecranul unui joc video și ghidează acțiunile jucătorului, maximizând numărul de puncte În prezent, învățarea prin întărire este încă un domeniu de cercetare și nu are un succes practic semnificativ în afară de aplicarea sa în jocuri Cu timpul, însă, se așteaptă ca învățarea prin consolidare să aibă din ce în ce mai multe aplicații practice în lumea reală: mașini autonome, robotică, managementul resurselor, educație etc Aceasta este o idee a cărei vreme vine sau tocmai vine Patru secțiuni ale învățării automate GLOSAR DE CLASIFICARE ȘI REGRESIE Clasificarea și regresia introduc mulți termeni speciali Unele dintre acestea au fost deja întâlnite în exemplele anterioare, iar mai multe vor fi întâlnite în capitolele ulterioare Au definiții precise specifice învățării automate și ar trebui să le cunoașteți • Eșantion (eșantion) sau intrare (intrare), - o instanță de date care intră în model • Prognoză, predicție (predicție) sau rezultat (ieșire), - rezultatul modelului • Ținta este adevărată Ce ar trebui să prezică modelul în mod ideal din datele dintr-o sursă externă • Eroarea de predicție, sau valoarea pierderii, este o măsură a distanței dintre predicția modelului și țintă • Clase (dasses) - un set de etichete în sarcina de clasificare disponibil pentru selecție De exemplu, într-o problemă de clasificare a imaginilor cu pisici și câini, sunt disponibile două clase: "câine" și "pisica" • Etichetă (labei) - o instanță specifică a unei clase într-o problemă de clasificare De exemplu, dacă imaginea # este adnotată ca aparținând clasei "câine", atunci "câine" este eticheta pentru imaginea # • Adevărul de bază, sau adnotările, sunt toate ținte pentru un set de date, de obicei colectate de oameni • Clasificarea binară este o sarcină de clasificare care trebuie să împartă datele de intrare în două categorii care se exclud reciproc • Clasificarea multiclasă (dassification multiclasă) este o problemă de clasificare care trebuie să împartă datele de intrare în mai mult de două categorii Un exemplu este clasificarea cifrelor scrise de mână • Clasificarea cu mai multe valori sau fuzzy (dassification multilabel) este o problemă de clasificare în care pot fi atribuite mai multe etichete fiecărui eșantion de intrare De exemplu, o imagine poate prezenta o pisică și un câine împreună și, prin urmare, o astfel de imagine ar trebui adnotată cu două etichete: "pisica" și "câine" Numărul de etichete atribuite imaginilor poate varia de obicei • Regresia scalară este o problemă în care ținta este un număr scalar situat pe o dreaptă reală continuă Un bun exemplu este prognoza prețului casei: prețuri diferite dintr-o gamă continuă • Regresia vectorială este o problemă în care ținta este un set de numere care se află pe o dreaptă numerică continuă De exemplu, regresia pe mai multe valori (cum ar fi coordonatele dreptunghiului care delimitează imaginea) este o regresie vectorială • Loturi sau mini-loturi (loturi sau mini-loturi) - un set mic de mostre (de obicei de la la ) procesate de model în același timp Numărul de mostre este adesea o putere de două pentru o utilizare mai eficientă a memoriei GPU În timpul antrenamentului, un mini-lot este utilizat în coborârea în gradient pentru a calcula o modificare a greutăților modelului Capitolul Fundamentele învățării automate Evaluarea modelelor de învățare automată În cele trei exemple prezentate în Capitolul , am împărțit datele în seturi de antrenament și control În acest proces, ne-am dat seama rapid de motivul pentru care nu am putut evalua calitatea modelelor pe aceleași date pe care au fost instruite: după doar câteva epoci, efectul de supraadaptare a apărut în toate cele trei modele Cu alte cuvinte, calitatea predicției asupra datelor care nu au fost implicate în antrenament a încetat să crească (sau chiar s-a înrăutățit), în timp ce pe datele de antrenament, calitatea predicției crește întotdeauna în timpul antrenamentului Scopul învățării automate este de a crea modele de generalizare care oferă o predicție calitativă asupra datelor care nu au participat la instruire, iar supraadaptarea este principalul obstacol în realizarea acesteia Puteți controla doar ceea ce observați, așa că este important să puteți evalua în mod fiabil calitatea generalizării modelului dvs Următoarele secțiuni iau în considerare strategii pentru a atenua problema supraajustării și pentru a obține o generalizare maximă În această secțiune, vom analiza modul în care este măsurată generalizarea: cum este evaluată calitatea modelelor de învățare automată Seturi de date de instruire, validare și control Evaluarea modelului se rezumă întotdeauna la împărțirea datelor disponibile în trei seturi: antrenament, validare și testare (sau control) Antrenați modelul pe datele de antrenament și evaluați folosind datele de testare După ce creați versiunea finală a modelului dvs , o testați cu datele de testare Poate vă întrebați: de ce să nu folosiți doar două seturi - antrenament și control? În acest caz, ar fi posibil să se antreneze modelul pe datele de antrenament și să se testeze pe datele de control La urma urmei, este mult mai ușor! Motivul este că procesul de construire a unui model este întotdeauna asociat cu setarea parametrilor acestuia: de exemplu, alegerea numărului de straturi sau modificarea dimensiunilor acestora (astfel de setări se numesc hiperparametri de model pentru a le distinge de parametri - coeficienți de greutate) Datele de testare sunt folosite ca semnal de feedback pentru reglare De fapt, tuning-ul în sine este un fel de învățare: căutarea unei configurații mai bune într-un anumit spațiu de parametri Ca rezultat, ajustarea configurației modelului pentru calitatea predicției pe datele de testare poate duce rapid la supraadaptarea acestor băi, chiar dacă modelul nu este niciodată antrenat direct pe ele Motivul principal pentru aceasta este așa-numita scurgere de informații De fiecare dată când reglați hiperparametrul modelului și vă bazați pe calitatea predicției din datele de testare, permiteți ca unele informații din acele date să se scurgă în model Dacă faci asta o singură dată pentru un parametru, în model Evaluarea modelelor de învățare automată o cantitate mică de informații va fi scursă, iar setul de date de validare va rămâne o măsură fiabilă a calității modelului Cu toate acestea, dacă repetați reglarea de mai multe ori - rularea experimentului, evaluarea modelului pe datele de testare și ajustarea acestuia pe baza rezultatelor - cantitățile tot mai mari de informații despre setul de date de testare se vor scurge în model Ajungeți cu un model care este reglat artificial pentru a funcționa bine pe datele de testare, deoarece acestea sunt datele pe care l-ați optimizat Cu toate acestea, scopul real este calitatea predicției pe date complet noi, nu pe datele de testare, prin urmare, pentru a evalua calitatea modelului, ar trebui să utilizați un set de date separat care nu este implicat în niciun fel în antrenament - setul de control Modelul dumneavoastră nu ar trebui să aibă acces la nicio informație din setul de control, nici măcar indirect Dacă faceți ajustări în model pe baza evaluării calității prognozei asupra datelor de control, evaluarea dvs asupra generalității modelului va fi inexactă Împărțirea datelor în seturi de instruire, validare și control poate părea o sarcină simplă, cu toate acestea, există o serie de tehnici de rezolvare care pot fi utile cu o cantitate limitată de date inițiale Să ne uităm la trei rețete clasice de estimare: validare de așteptare, validare K-fold și validare repetată K-fold cu amestecare Test simplu de împărțire Unele dintre date sunt alocate setului de control Se efectuează instruire pe datele rămase, iar pe cele de control se realizează evaluarea calității După cum sa discutat în secțiunile anterioare, pentru a preveni scurgerile de informații, modelul nu trebuie ajustat pe baza rezultatelor predicțiilor asupra datelor de control, așa că trebuie rezervat și un set de testare separat Schematic, o verificare cu o simplă împărțire a eșantionului arată ca cea prezentată în Fig Lista prezintă o implementare simplă a acestei tehnici Domeniul complet al datelor clasificate disponibile La Set de antrenament Set de control dedicat k Pe aceste date, antrenamentul se efectuează Pe aceste date efectuat nota Orez Împărțirea datelor utilizând validarea simplă a eșantionării divizate Capitolul Fundamentele învățării automate Lista Test simplu de împărțire num validation samples = Amestecarea datelor este adesea foarte de dorit np random shuffle(date) validation data = date[:num validation samples] date = date[num validation samples:] training data = date[:] Definiția setului de antrenament Definiție set de validare model = get model() model train(training data) validation score = model evaluate(validation data) Model de instruire pe datele de antrenament și evaluare pe datele de testare # În acest moment, puteți face ajustări la model, # reantrenează-l, evaluează-l, repetă ajustarea model = get model() model train(np concatenate([training data, validation data])) test score = model evaluate(test data) După reglarea hiperparametrului, este adesea de dorit să se antreneze modelul final pe toate datele care nu sunt incluse în setul de control Acesta este cel mai simplu protocol de notare, dar suferă de un dezavantaj semnificativ: cu cantitatea mică de date disponibile, seturile de validare și control pot conține prea puține mostre pentru a fi considerate reprezentative din punct de vedere statistic Acest lucru este ușor de văzut: dacă diferite permutări aleatorii ale datelor înainte de împărțire oferă estimări foarte diferite ale calității modelului, atunci vă confruntați exact cu această problemă Pentru a depăși acest lucru, au fost dezvoltate alte două abordări, validarea încrucișată K-block și validarea amestecată iterativă a blocurilor K, care sunt discutate mai jos Validare încrucișată prin K Blocks Cu această abordare, datele sunt împărțite în K blocuri de dimensiuni egale Pentru fiecare bloc i, modelul este antrenat pe blocurile K- rămase și evaluat pe blocul i Nota finală se calculează ca media notelor K intermediare Această metodă poate fi utilă atunci când calitatea modelului depinde prea mult de împărțirea datelor în seturi de antrenament/control La fel ca testul simplu divizat, această metodă nu elimină necesitatea de a utiliza un set de testare separat pentru calibrarea modelului Schematic, validarea încrucișată pentru blocurile K arată așa cum se arată în Fig Lista prezintă cea mai simplă implementare a acestei tehnici Evaluarea modelelor de învățare automată Date medii de testare Orez Validare încrucișată pe trei blocuri Lista Validare încrucișată prin K Blocks k = num validation samples = len(date) // to ex random shuffle (date) Se selectează validation scores = [] bloc de date pentru validare pentru plierea în intervalul (k): validation data = date[num validation samples * fold: num validation samples * (fold + )] training data = date[:num validation samples * fold] + data[num validation samples * (fold + ):] ◄ - Utilizați restul datelor pentru antrenament Rețineți că operatorul + de aici concatenează liste, nu calculează suma model = get model() ◄ Creați un model complet nou (neantrenat) model train(training data) validation score = model evaluate(validation data) validation scores append(validation score) validation score = np average(validation scores) model = get model() model train(data) test score = model evaluate(test data) Scorul general: media scorurilor pentru blocuri Antrenarea modelului final pe toate datele care nu sunt incluse în setul de control Verificare iterativă pentru K blocuri cu amestecare Această metodă este potrivită pentru situațiile în care aveți un set de date relativ mic și doriți să estimați modelul cât mai precis posibil Și-a arătat performanța înaltă în competiții pe site-ul Kaggle Esența sa constă în aplicarea repetată a validării încrucișate pe blocuri K cu amestecarea datelor Capitolul Fundamentele învățării automate înainte de fiecare împărţire în K blocuri Scorul final este media punctajelor obținute în cursele de validare încrucișată a blocului K Rețineți că modelele P x K sunt în cele din urmă antrenate și evaluate (unde P este numărul de iterații), ceea ce poate fi foarte costisitor Ce este important de reținut Atunci când alegeți un protocol de evaluare, rețineți întotdeauna: □ despre reprezentativitatea datelor - seturile de date de instruire și control ar trebui să fie reprezentative pentru cantitatea totală de date disponibile De exemplu, dacă încercați să clasificați imagini cu cifre scrise de mână și aveți o matrice în care mostrele sunt ordonate pe clasă, folosirea primelor % dintre eșantioane pentru antrenament și restul de % pentru control va avea ca rezultat set de antrenament care conține clasele - și setul de control - numai clasele - Această greșeală poate părea ridicolă, dar este făcută prea des Din acest motiv, este întotdeauna de dorit să amestecați datele înainte de a le împărți în seturi de antrenament și control; □ despre direcția axei timpului - atunci când încercați să preziceți viitorul din trecut (de exemplu, vremea pentru mâine, mișcarea mărfurilor etc ), nu trebuie să amestecați datele înainte de a împărți, deoarece aceasta va crea o scurgere de timp, modelul dvs va învăța de fapt din date în viitor În astfel de situații, ar trebui să vă asigurați întotdeauna că datele de control urmează imediat datele de antrenament; □ despre redundanța datelor - dacă există mai multe instanțe ale unor eșantioane în date (o apariție comună în lumea reală), amestecarea și împărțirea datelor în seturi de instruire și validare va introduce redundanță între seturile de instruire și validare În esență, veți testa o parte din datele de antrenament, care este cel mai rău dintre rele! Asigurați-vă că seturile de instruire și validare nu se suprapun Procesarea datelor, ingineria caracteristicilor și învățarea caracteristicilor În plus față de evaluarea modelului, trebuie să abordăm o altă problemă importantă înainte de a aborda dezvoltarea modelului: cum pregătim intrările și țintele înainte de a le furniza rețelei neuronale? Multe metode de prelucrare a datelor și de construcție a caracteristicilor depind în mare măsură de domeniul subiectului (de exemplu, pregătirea datelor textuale sau a imaginilor); le vom analiza în secțiunile următoare cu exemple specifice Între timp, să ne familiarizăm cu elementele de bază comune tuturor disciplinelor Procesarea datelor, ingineria caracteristicilor și învățarea caracteristicilor Preprocesarea datelor pentru rețele neuronale Scopul preprocesării datelor este de a face datele originale adecvate pentru transmiterea către rețeaua neuronală Aceasta include vectorizarea, normalizarea, gestionarea valorilor lipsă și extragerea caracteristicilor Vectorizare Toate intrările și țintele dintr-o rețea neuronală trebuie să fie tensori în virgulă mobilă (sau, în cazuri speciale, tensori întregi) Indiferent de datele pe care trebuie să le procesați - sunet, imagine, text - acestea trebuie mai întâi convertite în tensori Acest pas se numește vectorizare a datelor De exemplu, în cele două exemple anterioare de clasificare a datelor text, am început prin a converti textul în liste de numere întregi (care sunt secvențe de cuvinte) și am aplicat codificare directă pentru a transforma listele în tensori de date float În exemplele de clasificare a imaginilor cu cifre și de predicție a prețului casei, datele sursă sunt deja vectorizate, așa că am omis acest pas Normalizarea valorilor În exemplul de clasificare a cifrelor, imaginile originale cu cifre alb-negru au fost reprezentate prin rețele de numere întregi în intervalul - Înainte de a trimite aceste date în rețea, trebuia să turnăm numerele la tipul float și să le împărțim fiecare la , drept urmare am obținut matrice de numere în virgulă mobilă în intervalul - În mod similar, în exemplul de predicție a prețului casei, am avut seturi de caracteristici cu valori în diferite intervale: unele caracteristici au fost exprimate ca valori în virgulă mobilă, altele ca valori întregi Înainte de a trimite datele în rețea, trebuia să normalizăm fiecare caracteristică individual, astfel încât toate să aibă o valoare medie de și o abatere standard de În general, este nesigur să trimiteți date către rețeaua neuronală care pot lua valori foarte mari (de exemplu, numere întregi cu un număr mare de biți semnificativi care sunt mult mai mari decât valorile inițiale acceptate de greutățile rețea) sau date eterogene (de exemplu, date în care o caracteristică este definită de valori în intervalul - , iar cealaltă este în intervalul - ) Acest lucru poate duce la schimbări semnificative de gradient care vor împiedica convergerea rețelei Pentru a simplifica instruirea în rețea, datele ar trebui să aibă următoarele caracteristici: □ luați valori mici - de regulă, valorile ar trebui să fie în intervalul - ; Capitolul Fundamentele învățării automate □ să fie omogen - adică toate caracteristicile ar trebui să ia valori din aproximativ același interval În plus, următoarea practică de normalizare poate fi utilă, deși nu este întotdeauna necesară (de exemplu, nu am folosit normalizarea în exemplul de clasificare a cifrelor): □ normalizarea fiecărei caracteristici în mod independent, astfel încât valoarea sa medie să fie este ; □ normalizați fiecare caracteristică în mod independent, astfel încât abaterea sa standard să fie Acest lucru este ușor de implementat folosind matrice Numpy: x -= x mean(axa= ) x /= x std(axa= ) I Se presupune că x este o matrice bidimensională I date cu formă (eșantioane, proprietăți) Gestionarea valorilor lipsă Uneori, unele valori pot lipsi din datele sursă De exemplu, în exemplul de predicție a prețului casei, prima caracteristică (coloana cu indicele din date) a fost rata criminalității pe cap de locuitor Ce se întâmplă dacă această caracteristică nu este definită în toate mostrele? Dacă sunt lăsate așa, vom avea valori lipsă în datele de antrenament sau de control În general, în cazul rețelelor neuronale, este sigur să înlocuiți valorile de intrare lipsă cu zerouri, cu condiția ca să nu fie o valoare semnificativă În timpul procesării datelor, rețeaua va înțelege că înseamnă că nu există date și va ignora această valoare Rețineți că, dacă există valori lipsă în datele de control, dar rețeaua a fost antrenată fără ele, rețeaua dvs nu va recunoaște valorile lipsă! În această situație, ar trebui să se genereze artificial instanțe de antrenament cu caracteristici lipsă: copiați unele instanțe de antrenament și eliminați unele caracteristici în ele care nu sunt de așteptat să fie definite în datele de control Construcție caracteristică Ingineria caracteristicilor este procesul de utilizare a propriilor cunoștințe despre date și algoritmul de învățare automată (în acest caz, o rețea neuronală) pentru a îmbunătăți performanța algoritmului prin aplicarea unor transformări predefinite datelor înainte de a le transmite modelului În multe cazuri, nu ar trebui să vă așteptați ca un model de învățare automată să se poată antrena pe date complet arbitrare Datele ar trebui să fie transmise modelului într-o formă care să faciliteze lucrul cu el Procesarea datelor, ingineria caracteristicilor și învățarea caracteristicilor Să luăm în considerare un exemplu simplu Să presupunem că vrem să dezvoltăm un model care să ia o imagine a unui cadran de ceas cu mâinile și să returneze ora (Figura ) Date inițiale: grilă cu pixeli Mai de succes {х : , trăsături: y : } coordonate {x : , shooter y : } {x : , , y : , } {x : - , , : , } Chiar mai tetal: theta : norocos theta : theta : semne: unghiuri de deviere a săgeților Orez Construcția de semne pentru citirea timpului din imaginea unui cadran de ceas Dacă utilizați pixelii imaginilor originale ca intrare, vă veți confrunta cu o problemă dificilă de învățare automată Pentru a o rezolva, trebuie să construiți o rețea convoluțională și să cheltuiți o mulțime de resurse de calcul pentru formarea acesteia Cu toate acestea, prin înțelegerea problemei la un nivel înalt (modul în care un om spune ora dintr-un ceas), se pot construi caracteristici de intrare mult mai bune pentru un algoritm de învățare automată: de exemplu, se pot scrie cu ușurință cinci linii de cod Python care urmează pixeli negri ai mâinilor și returnează coordonatele (x, y) la capătul fiecărei săgeți Apoi, un algoritm simplu de învățare automată poate învăța să asocieze aceste coordonate cu ora corespunzătoare din zi Puteți merge și mai departe: convertiți coordonatele (x, y) în coordonate polare relativ la centrul imaginii În acest caz, unghiurile de deviere ale săgeților vor fi aplicate la intrare Caracteristicile rezultate fac problema atât de simplă încât nu necesită învățare automată pentru a o rezolva; o operațiune simplă de rotunjire și o căutare în dicționar sunt suficiente pentru a obține o aproximare a orei din zi Aceasta este esența ingineriei caracteristicilor: simplificați problema și faceți posibilă rezolvarea ei prin mijloace mai simple Acest lucru necesită de obicei o înțelegere profundă a problemei Înainte de deep learning, ingineria caracteristicilor a jucat un rol important, deoarece algoritmii clasici de suprafață nu aveau spații de ipoteză, Capitolul Fundamentele învățării automate suficient de bogat pentru a identifica trăsăturile utile pe cont propriu Forma datelor transmise algoritmului a fost esențială pentru succesul acestuia De exemplu, înainte ca rețelele neuronale să aibă succes, soluțiile la problema clasificării cifrelor MNIST se bazau de obicei pe caracteristici specifice, cum ar fi numărul de bucle din imaginea cifrei, înălțimea fiecărei cifre din imagine, histograma valorilor pixelilor , și așa mai departe Din fericire, tehnologiile moderne de învățare profundă elimină în majoritatea cazurilor necesitatea de a construi caracteristici, deoarece rețelele neuronale sunt capabile să extragă automat caracteristici utile din datele originale Înseamnă asta că nu ar trebui să vă faceți griji cu privire la ingineria caracteristicilor atunci când utilizați rețele neuronale profunde? Nu, și iată de ce: □ Caracteristicile bune vă permit să rezolvați problemele mai elegant și cu mai puține resurse De exemplu, ar fi ridicol să rezolvi problema citirii citirilor de pe cadranul unui ceas folosind o rețea neuronală convoluțională □ Caracteristicile bune vă permit să rezolvați probleme cu o cantitate mult mai mică de date inițiale Capacitatea modelelor de învățare profundă de a extrage în mod independent caracteristici depinde de prezența unei cantități mari de date inițiale; dacă aveți doar câteva mostre, valoarea informațională a caracteristicilor acestora devine decisivă Suprafitting și underfitting În toate cele trei exemple din capitolul anterior - detectarea sentimentului de revizuire, clasificarea temelor și regresia prețului casei - calitatea modelului din datele de testare a atins întotdeauna vârful după câteva epoci și apoi a început să scadă - modelul a atins rapid un efect de supraadaptare Supraadaptarea este observată în toate problemele de învățare automată Capacitatea de a face față acestui efect joacă un rol important în învățarea automată Principala problemă a învățării automate este contradicția dintre optimizare și generalitate Optimizarea se referă la procesul de reglare a unui model pentru a obține cea mai bună performanță pe datele de antrenament (învățare automată), în timp ce generalitatea se referă la calitatea unui model antrenat pe date pe care nu a mai văzut-o până acum Scopul jocului este de a atinge un nivel ridicat de generalitate, dar nu poți controla generalitatea, poți doar regla modelul pe baza datelor de antrenament La începutul antrenamentului, optimizarea și generalitatea sunt corelate: cu cât pierderea datelor de antrenament este mai mică, cu atât este mai scăzută datele de control Atâta timp cât acesta este cazul, se spune că modelul este underfit' progresul este încă posibil, rețeaua nu a modelat încă toate modelele relevante în datele de antrenament Cu toate acestea, după mai multe iterații ale datelor de antrenament, generalitatea încetează să se îmbunătățească, valorile testului încetează să crească și apoi încep să se deterioreze - efectul Supraantrenarea și subantrenarea recalificarea modelului Cu alte cuvinte, modelul începe să învețe modele care sunt caracteristice datelor de antrenament, dar nu și noilor date Cea mai bună modalitate de a preveni modelul să învețe modele specifice sau irelevante care apar în datele de antrenament este de a mări dimensiunea băilor de antrenament Un model antrenat pe mai multe date va avea mai multă generalitate Dacă acest lucru nu este posibil, următoarea modalitate cea mai bună este de a reglementa calitatea informațiilor sau de a adăuga restricții asupra informațiilor pe care modelul va putea să le stocheze Dacă rețeaua își poate permite doar să păstreze un număr mic de tipare, procesul de optimizare o va forța să se concentreze asupra celor mai semnificative, ceea ce va crește șansele de a ajunge la un nivel superior de generalitate Combaterea supraadaptarii în acest fel se numește regularizare Să aruncăm o privire la câteva tehnici comune de regularizare și să le punem în practică pentru a îmbunătăți modelul de clasificare a recenziilor filmelor din Secțiunea Reducerea dimensiunii rețelei Cea mai ușoară modalitate de a preveni supraadaptarea este reducerea dimensiunii modelului: numărul de parametri de învățare din model (determinat de numărul de straturi și numărul de neuroni (dimensiunea) din fiecare strat) În deep learning, numărul de parametri învățabili dintr-un model este adesea denumit capacitatea modelului Evident, cu cât modelul are mai mulți parametri, cu atât are mai multă memorie și, în consecință, cu atât este mai ușor să aluneci până la o mapare directă a instanțelor de antrenament la scopul lor - mapare fără generalizare De exemplu, un model cu de binare și-ar putea aminti cu ușurință clasa fiecărei cifre din setul de antrenament MNIST: avem nevoie doar de binare pentru fiecare dintre cele de cifre Dar un astfel de model ar fi practic inutil pentru clasificarea noilor modele de numere Țineți întotdeauna cont de acest lucru: modelele de învățare profundă tind să se potrivească bine pe datele de antrenament, dar scopul este de a obține generalitate, nu de a se potrivi cu datele Pe de altă parte, dacă rețeaua are o cantitate limitată de resurse de memorie, nu va putea obține o mapare directă; prin urmare, pentru a minimiza pierderile, va trebui să recurgă la studiul reprezentărilor comprimate, care au o capacitate mai largă de a prezice scopuri, iar aceste reprezentări sunt cele care ne interesează cel mai mult În același timp, modelul trebuie să aibă un număr suficient de parametri, astfel încât să nu existe un efect de underfitting: nu trebuie să îi lipsească resursele de memorie Este important să găsiți un compromis între capacitatea prea mare și insuficientă Din păcate, nu există o formulă magică pentru a determina numărul corect de straturi sau dimensiunea corectă a fiecărui strat Va trebui să evaluați o serie de arhitecturi diferite (în raport cu setul de validare, desigur, nu cu setul de control) pentru a determina dimensiunea corectă a modelului pentru datele dvs În general Capitolul Fundamentele învățării automate openhide biz Procesul de găsire a unei dimensiuni adecvate a modelului ar trebui să înceapă cu un număr relativ mic de straturi și parametri, iar apoi dimensiunile straturilor și numărul acestora ar trebui să crească treptat până când există o creștere a pierderii datelor de validare Să încercăm această abordare pe o rețea care realizează clasificarea recenziilor de filme Lista arată rețeaua originală Lista modelul original din modelele de import keras din straturi de import keras model = modele Sequential() model add(layers Dense( j activation='relu', input shape=( j))) model add(layers Dense( j activation='relu')) model add(layers Dense(lj activation='sigmoid')) Acum să încercăm să o înlocuim cu o rețea mai mică (Listing ) Lista Versiune model cu capacitate mai mica model = modele Sequential() model add(layers Dense( j activation='relu', input shape=( j))) model add(layers Dense( j activation='relu')) model add(layers Dense(lj activation='sigmoid')) Pe fig sunt prezentate pentru comparație grafice ale pierderilor de date de testare pentru rețeaua originală și versiunea redusă a acesteia Punctele reprezintă valorile pierderilor pentru rețeaua mai mică, iar crucilele pentru cea originală (vă reamintesc că cu cât pierderea este mai mică, cu atât calitatea modelului este mai mare) Orez Efectul capacității modelului asupra pierderii datelor de testare: o încercare de a reduce modelul Supraantrenament și subantrenament După cum puteți vedea, efectul de recalificare al rețelei reduse apare mai târziu decât cel inițial (după șase epoci, nu patru), iar după recalificare, calitatea acesteia se deteriorează mai ușor Acum, spre contrast, să adăugăm o rețea cu o capacitate mai mare - mult mai mult decât este necesar pentru această sarcină (Listing ) Lista Versiune model cu capacitate mult mai mare model = modele Sequential() model add(layers Dense( j activation='relu', input shape=( j))) model add(layers Dense( j activation='relu')) model add(layers Dense(lj activation='sigmoid')) Pe fig sunt date pentru a compara graficele pierderilor pe datele de testare pentru rețelele mari și originale Punctele reprezintă valorile pierderilor pentru rețeaua mai mare, iar crucilele pentru cea originală Orez Efectul capacității modelului asupra pierderii datelor de testare: o încercare de extindere a modelului Recalificarea modelului extins are loc aproape imediat după o epocă și are consecințe mult mai grave Rezultatele măsurării pierderilor în etapa de verificare sunt prea distorsionate Pe fig Figura prezintă graficele pierderilor de antrenament pentru aceste două rețele După cum puteți vedea, rețeaua mare ajunge rapid la zero pierderi din datele de antrenament Cu cât capacitatea rețelei este mai mare, cu atât învață mai repede să modeleze datele de antrenament (rezultând o pierdere foarte mică de date de antrenament), dar este mai susceptibilă la supraadaptare (rezultând o diferență mare între pierderile de date de antrenament și de testare) Capitolul Fundamentele învățării automate Orez Influența capacității modelului asupra pierderii datelor de antrenament: o încercare de extindere a modelului Adăugarea de regularizare a greutății S-ar putea să fiți familiarizați cu principiul briciului lui Occam: dacă unui fenomen i se pot da două explicații, cea corectă este probabil mai simplă - cu mai puține presupuneri Această idee se aplică și modelelor generate de rețelele neuronale: pentru aceleași seturi de date de antrenament și arhitectură de rețea, există multe seturi de ponderi (modele) care explică datele Modelele mai simple sunt mai puțin predispuse la supraadaptare decât cele complexe Un model simplu în acest context este un model în care distribuția valorilor parametrilor are mai puțină entropie (sau un model cu mai puțini parametri, așa cum se arată în secțiunea anterioară) Adică, o modalitate tipică de a atenua problema supraechipării este reducerea complexității rețelei prin limitarea valorilor greutăților acesteia, ceea ce face distribuția lor mai uniformă Această tehnică se numește regularizare a greutății, este implementată prin adăugarea unei penalități pentru creșterea greutăților la funcția de pierdere a rețelei și are două soiuri: □ Regularizare L (regularizare LI) - penalizarea adăugată este direct proporțională cu valorile absolute ale coeficienților de pondere (Ll-norma ponderilor) □ Regularizare L - penalizarea adăugată este proporțională cu pătratele valorilor ponderilor (T -norma ponderilor) În contextul rețelelor neuronale, reularizarea B se mai numește și scădere în greutate Acestea sunt două denumiri diferite pentru același fenomen: reducerea greutăților din punct de vedere matematic este aceeași cu B -regularizarea În Keras, regularizarea ponderilor se face prin trecerea de argumente numite la straturi cu instanțe de regularizatori de pondere Luați în considerare un exemplu de adăugare a regularizării B la o rețea de clasificare a recenziilor de filme (Listing ) Supraantrenarea și subantrenarea Lista Adăugarea regularizării cu greutăți la model din regularizatorii de import keras model = modele Sequential() model add(layers Dense( , kernel regularizer=regularizers ( ), activation='relu', input shape=( ,))) model add(layers Dense( , kernel regularizer=regularizers ( ), activation='relu ')) model add(layers Dense(l, activation='sigmoid')) ( , ) înseamnă că fiecare coeficient din matricea de greutate a stratului va adăuga , * weight coefficient value la pierderea totală a rețelei Rețineți că, deoarece penalizarea este adăugată doar în timpul fazei de antrenament, valoarea pierderii rețelei în faza de antrenament va fi mult mai mare decât în faza de control Pe fig Figura prezintă efectul regularizării L După cum puteți vedea, modelul L -pery-larized (puncte) este mult mai rezistent la supraajustare decât modelul original (cruci), chiar dacă ambele modele au același număr de parametri Orez Influența -regularizării greutăților asupra cantității de pierdere asupra datelor de testare În loc de regularizarea E , puteți utiliza și următoarele regulatoare care sunt incluse cu Keras Lista Diferite regulatoare disponibile în Keras din regularizatorii de import keras regularizatori ( , ) ◄ N-regularizare regularizatori ( = , , = , ) ◄ LI combinat și regularizare Capitolul Fundamentele învățării automate Adăugarea de subțiere Dropout este una dintre cele mai eficiente și comune tehnici de regularizare pentru rețelele neuronale, dezvoltată de Geoff Hinton și studenții săi de la Universitatea din Toronto Subțierea, care se aplică stratului, constă în eliminarea (alocarea zero) caracteristicilor selectate aleatoriu în etapa de antrenament Imaginați-vă că în timpul antrenamentului, un anumit nivel pentru un eșantion dat la intrare returnează în mod normal un vector [ , , , , ] După aplicarea subțierii, unele elemente ale vectorului sunt setate la zero: de exemplu, [ , , , ] Coeficientul de subțiere este proporția caracteristicilor nulabile; de obicei este ales în intervalul de la , la , În etapa de testare nu se efectuează rărirea; în schimb, valorile nivelului de ieșire sunt reduse cu un factor egal cu factorul de decimare pentru a compensa diferența de activitate a caracteristicilor în timpul fazelor de testare și antrenament Luați în considerare o matrice Numpy care conține rezultatul stratului, layer output, cu formă (batch size, features) În etapa de antrenament, resetăm valorile selectate aleatoriu în matrice: layer output *= np random randint( J high= j size=layer output shape) ◄- În etapa de antrenament, % dintre caracteristicile din ieșire sunt resetate În faza de testare, reducem rezultatele cu un factor de subțiere În acest caz, cu un factor de , (deoarece jumătate din caracteristici au fost eliminate înainte): layer output *= , ◄ În timpul testării Rețineți că acest proces poate fi implementat în întregime în timpul fazei de antrenament, iar rezultatele obținute în timpul fazei de testare pot fi lăsate neschimbate, ceea ce se face adesea în practică (Fig ): layer output *= np random randint( J high= j size=layer output shape) ◄ - layer output /= Vă rugăm să rețineți: în această etapă, cazul este o creștere, antrenament și nu o scădere a valorilor Această abordare poate părea ciudată și nerezonabilă Cum vă va ajuta să faceți față supraantrenării? Potrivit lui Hinton, baza acestei tehnici a fost, printre altele, mecanismul folosit de bănci pentru a preveni frauda Iată cuvintele lui: "În timpul vizitei la banca mea, am observat că casierii care mă servesc se schimbă adesea L-am întrebat pe unul dintre ei de ce se întâmplă asta A spus că nu știe, dar de multe ori trebuiau să se mute din loc în loc Am presupus că acest lucru a fost făcut pentru a exclude coluziunea frauduloasă între client și angajatul băncii Acest lucru m-a făcut să cred că ștergerea a fost accidentală Supraantrenarea și subantrenarea , , , , % subțiere , , , , , , , , , , , , , , , , , , , , , , , , , , , , Orez Decimarea se aplică matricei de activare în faza de antrenament, cu scalarea în aceeași fază În timpul fazei de testare, matricea de activare nu se modifică un subset selectat de neuroni din fiecare exemplu poate ajuta la prevenirea conspirației modelului cu datele originale și, prin urmare, atenuează efectul supraajustării" Ideea de bază este că introducerea zgomotului în valorile de ieșire poate sparge tiparele aleatorii de mică valoare (Hinton le numește conspirații) pe care modelul începe să le amintească în absența zgomotului În Keras, puteți adăuga subțierea rețelei folosind stratul Dropout, care procesează rezultatele muncii stratului imediat înaintea acestuia: model add(straturi Droout( )) Să adăugăm două straturi Dropout la rețeaua IMDB și să vedem cum afectează efectul de supraadaptare Lista Adăugarea de subțiere la rețeaua IMDB model = modele Sequential() model add(layers Dense( j activation='relu', input shape=( j))) model add(straturi Droout( )) model add(layers Dense( j activation='relu')) model add(straturi Droout( )) model add(layers Dense(lj activation='sigmoid')) Pe fig prezintă grafice cu rezultate Și din nou, există o îmbunătățire față de rețeaua originală Pentru a vă reaminti, consultați cele mai comune modalități de a atenua problema supraadaptarii rețelelor neuronale: □ creșterea cantității de date de antrenament; □ reduce capacitatea rețelei; □ adăugarea de regularizare a greutăților; □ adăugați subțiere Vezi firul de discuții Reddit: "AMA: Suntem echipa Google Brain Ne-ar plăcea să vă răspundem la întrebările despre învățarea automată" (AMA: suntem o echipă Google Brain Suntem bucuroși să vă răspundem la întrebările despre învățarea automată), http://mng bz/XrsS Capitolul Fundamentele învățării automate Orez Influența decimării asupra cantității de pierdere a datelor de testare Proces generalizat pentru rezolvarea problemelor de învățare automată Vă vom prezenta un cadru generic pe care îl puteți utiliza pentru a rezolva orice problemă de învățare automată Acest cadru leagă împreună ideile descrise în acest capitol: definirea sarcinii, estimarea, ingineria caracteristicilor și relaxarea problemei supraajustării Definirea unei sarcini și crearea unui set de date În primul rând, trebuie să definiți sarcina: □ Ce formă vor lua datele de intrare? Ce trebuie prezis? Puteți antrena o rețea să prezică ceva numai dacă aveți date de antrenament: de exemplu, puteți antrena o rețea pentru a determina colorarea emoțională a recenziilor de filme dacă aveți recenzii și adnotări adecvate Adică, disponibilitatea datelor în această etapă este factorul limitativ (s-ar putea să nu aveți fonduri pentru a plăti persoanele care vor colecta datele pentru dvs ) □ Ce tip de provocare aveți? Clasificare binară? Clasificare cu mai multe clase? Regresia scalară? Regresia vectorială? Clasificare multiclasă, multivalorică (fuzzy)? Altceva precum gruparea, generarea sau învățarea prin consolidare? Identificarea tipului de problemă va determina alegerea arhitecturii modelului, a funcției de pierdere etc Proces generalizat pentru rezolvarea problemelor de învățare automată Nu puteți trece la următoarea etapă fără a ști ce date vor fi introduse și care ar trebui să fie rezultatul Ține cont de ipotezele pe care le faci în această etapă: □ ipoteza că rezultatul poate fi prezis din intrare; □ ipoteza că datele disponibile sunt suficient de informative pentru a explora relația dintre datele de intrare și de ieșire Până să ai un model de lucru, acestea sunt doar ipoteze care așteaptă să fie confirmate sau infirmate Nu toate problemele au o soluție; prezența datelor de intrare X și a țintelor Y nu înseamnă că X conține suficiente informații pentru a prezice Y cantitatea de informații pentru prognoza sigură O clasă de probleme de nerezolvat de care ar trebui să fii conștient este problemele non-staționare Imaginați-vă că încercați să creați un motor de recomandare: ați antrenat un model pe datele colectate timp de o lună (august) și acum doriți să începeți să generați recomandări pentru lunile de iarnă Cea mai mare problemă este că oamenii cumpără haine diferite în diferite anotimpuri: cumpărarea de haine nu este un fenomen staționar pe o scară de câteva luni Ceea ce încercați să modelați se schimbă în timp În acest caz, mișcarea corectă ar fi reantrenarea continuă a modelului pe baza datelor colectate în trecutul recent sau colectarea datelor la o scară de timp în care problema rămâne staționară Pentru sarcinile care se modifică în cicluri, cum ar fi cumpărăturile de haine, trebuie să colectați date de-a lungul mai multor ani pentru a modela schimbările sezoniere - dar nu uitați să faceți din sezon unul dintre intrările modelului dvs ! Rețineți că învățarea automată poate fi folosită numai pentru a reține modelele prezente în datele de antrenament Modelul va putea recunoaște doar ceea ce a văzut înainte Utilizarea modelelor instruite pe date din trecut pentru a prezice viitorul este posibilă numai dacă viitorul se comportă ca trecutul Ceea ce este de fapt foarte rar Alegerea unei măsuri de succes Pentru a menține situația sub control, trebuie să o poți observa Pentru a reuși, este important să definești ce se înțelege prin succes - intimitate? Acuratețe și completitudine? Retenție client? Rata ta de succes va determina alegerea funcției de pierdere - ce anume ar trebui să optimizeze modelul tău Ar trebui să fie direct legat de obiectivele tale generale, cum ar fi succesul în afaceri, de exemplu Capitolul Fundamentele învățării automate Pentru problemele de clasificare simetrică, în care fiecare clasă este la fel de probabilă, sunt adesea utilizate metrici precum proximitatea și zona sub curba caracteristicii de funcționare a receptorului (ROC AUC) Pentru problemele de clasificare asimetrică, pot fi utilizate precizia și retragerea Pentru probleme de clasare sau clasificare multivalorică, puteți utiliza așteptarea medie matematică De asemenea, de multe ori trebuie să vă definiți propria măsură a succesului Pentru a vă face o idee despre varietatea de măsuri ale succesului în învățarea automată și despre modul în care acestea se leagă la diferite domenii, este util să consultați competițiile de analiză de pe site-ul web Kaggle (https://kaggle com)\ unde aveți va vedea o gamă largă de probleme și valori măsurate Alegerea protocolului de evaluare Odată ce v-ați identificat obiectivul, trebuie să vă dați seama și cum să măsurați mișcarea către acesta Mai sus, am analizat trei protocoale comune de evaluare: □ selectarea unui set separat de date de testare din eșantionul general - această metodă este potrivită atunci când există o cantitate mare de date; □ validarea încrucișată prin K blocuri - alegerea corectă cu un număr mic de probe inițiale din care este imposibil să se selecteze un eșantion reprezentativ pentru verificare; □ verificare iterativă împotriva blocurilor K cu amestecare - vă permite să evaluați modelul cu o precizie ridicată atunci când aveți la dispoziție o cantitate limitată de date Doar alege una dintre acestea În cele mai multe cazuri, primul va ajuta la obținerea unei estimări destul de fiabile Pregătirea preliminară a datelor Odată ce ați identificat sarcinile și intrările de antrenament, scopul de optimizat și procedura de evaluare a abordării luate, sunteți aproape gata să începeți antrenamentul modelului Dar mai întâi, trebuie să convertiți datele originale într-un format în care acestea să poată fi transmise unui model de învățare automată - în acest caz, o rețea neuronală profundă: □ după cum se arată mai sus, datele trebuie plasate în tensori; □ valorile plasate în tensori necesită de obicei scalarea și reducerea la valori mai mici: de exemplu, în intervalul [- , ] sau [ , ]; □ dacă valorile diferitelor caracteristici sunt în intervale diferite (date eterogene), acestea trebuie normalizate; □ Este posibil să fie nevoie, de asemenea, să efectuați ingineria caracteristicilor, în special cu o cantitate mică de date de intrare Proces generalizat pentru rezolvarea problemelor de învățare automată După ce tensorii cu datele sursă și țintă sunt gata, puteți începe antrenamentul modelului Dezvoltarea unui model mai avansat decât cazul de bază Scopul dumneavoastră în această etapă este să obțineți puterea statistică, adică să dezvoltați un model mic care poate produce un rezultat mai bun decât cazul de bază În exemplul de clasificare a cifrelor scrise de mână din setul de date MNIST, se poate spune că orice model care atinge o precizie mai mare de , are putere statistică; în exemplul IMDB, orice model cu o precizie mai mare de , poate fi numit astfel Rețineți că nu este întotdeauna posibil să obțineți putere statistică Dacă modelul nu reușește să ofere o precizie mai bună decât o simplă selecție aleatorie (caz de bază) după ce a încercat mai multe arhitecturi rezonabile, este posibil ca datele de intrare să lipsească răspunsul la întrebarea pe care încercați să o puneți Amintiți-vă că faceți două ipoteze: □ ipoteza că rezultatul poate fi prezis din intrare; □ ipoteza că datele disponibile sunt suficient de informative pentru a explora relația dintre datele de intrare și de ieșire Este posibil ca aceste ipoteze să fie false, caz în care va trebui să realizați proiectele încă de la început Dacă totul merge bine, există trei alegeri cheie pe care trebuie să le faci pentru a crea primul tău model de lucru: □ Funcția de activare pentru ultimul nivel - stabilește limite efective asupra rezultatului rețelei De exemplu, în cazul clasificării recenziilor din IMDB, funcția sigmoidă este utilizată la ultimul nivel, în cazul regresiei, funcția de activare la ultimul nivel nu este folosită deloc etc □ Funcția de pierdere - trebuie să corespundă tipului de problemă care se rezolvă De exemplu, în cazul IMDB se folosește funcția binary crossentropy loss, în cazul regresiei se folosește funcția mse etc □ Configurare optimizare - ce optimizator să utilizați? Ce pas de învățare să alegi? În cele mai multe cazuri, rmsprop poate fi utilizat cu succes cu pasul implicit de învățare Atunci când alegeți o funcție de pierdere, rețineți că nu este întotdeauna posibilă optimizarea directă a ratei de succes a unei soluții de problemă Uneori nu există o modalitate ușoară de a converti rata de succes într-o funcție de pierdere; La urma urmei, funcțiile de pierdere ar trebui să fie calculabile pe mini-loturi de date (în mod ideal, funcția de pierdere ar trebui să fie calculabilă pe cantități foarte mici de date, până la o Capitolul Fundamentele învățării automate exemplu) și diferențiabil (altfel nu va fi posibilă utilizarea backpropagation pentru a antrena rețeaua) De exemplu, metrica de clasificare ROC AUC utilizată pe scară largă nu poate fi optimizată direct Prin urmare, în problemele de clasificare, o anumită estimare a acesteia este de obicei optimizată, de exemplu, entropia încrucișată În general, putem presupune că cu cât valoarea entropiei încrucișate este mai mică, cu atât valoarea ROC AUC este mai mare Tabelul vă va ajuta să selectați o funcție de activare pentru ultimul nivel și o funcție de pierdere pentru unele probleme tipice Tabelul Alegerea funcției de activare pentru ultimul nivel și funcția de pierdere Tip de sarcină Funcție de activare pentru funcția de pierdere de ultimul nivel Clasificare binară sigmoid binary crossentropy Clasare multi-clasă, fără ambiguitate softmax categorical crossentmountain Multiclasă, clasificare multivalorică sigmoid binary crossentropy Regresia asupra valorilor arbitrare Nu mse Regresie pe valori între ii sigmoid mse sau binary crossentropy Scalare verticală: Dezvoltare model cu supraajustare După obținerea unui model cu putere statistică, se pune întrebarea despre puterea suficientă a modelului Există suficiente straturi și parametri pentru a modela corect problema? De exemplu, o rețea cu un singur strat ascuns (intermediar) care are doi parametri va avea o oarecare putere statistică pentru a clasifica cifrele din setul MNIST, dar nu suficientă pentru a considera problema rezolvată Nu uitați de o problemă comună în învățarea automată - contradicția dintre optimizare și generalitate; Modelul ideal este considerat a fi cel care se află direct la granița dintre underfitting și overfitting, între capacitate insuficientă și exces Pentru a înțelege unde se află această graniță, trebuie mai întâi să fie trecută Pentru a înțelege cât de mare trebuie să fie un model, trebuie mai întâi să construim un model care are un efect de supraadaptare Pentru a face acest lucru este simplu: Adăugați straturi Setați un număr mare de parametri în straturi Antrenează modelul pe un număr mare de epoci Proces generalizat pentru rezolvarea problemelor de învățare automată Monitorizați constant modul în care rata pierderilor se modifică în timpul etapelor de instruire și verificare, precum și orice alți indicatori din aceleași etape care vă interesează Deteriorarea calității modelului pe datele de testare indică realizarea efectului supraajustării Următorul pas este regularizarea și reglarea modelului pentru a se apropia cât mai mult de un model ideal care nu suferă nici de underfitting, nici de supraajustare Regularizarea modelului și reglarea hiperparametrului Acest pas durează cel mai mult timp: va trebui să vă schimbați modelul de mai multe ori, să îl antrenați, să evaluați calitatea datelor de testare (datele de control nu ar trebui să ia parte la acest pas), să îl schimbați din nou și să repetați acest ciclu până la calitatea a modelului atinge nivelul dorit Iată câteva dintre lucrurile pe care ar trebui să le încercați: □ adăugați subțiere; □ încercați diferite arhitecturi: adăugați și eliminați straturi; □ adăugați L - și (sau) E -regularizare; □ încercați diferiți hiperparametri (de exemplu, numărul de neuroni pe strat sau pasul de antrenament al optimizatorului) pentru a găsi setările optime; □ În plus, puteți efectua un ciclu de construcție a caracteristicilor: adăugați caracteristici noi sau eliminați pe cele existente care nu par informative Amintiți-vă, de fiecare dată când utilizați feedback din procesul de validare pentru a regla un model, informațiile sunt scurse în model Dacă ciclul se repetă doar de câteva ori, nu este nimic de care să vă faceți griji; dar dacă ciclul de testare și reglare se repetă de mai multe ori, în cele din urmă va determina modelul să se reinstruiască pe datele de testare (chiar dacă modelul nu le primește direct) Acest lucru reduce fiabilitatea procesului de evaluare După obținerea unei configurații satisfăcătoare, se poate antrena versiunea finală a modelului pe toate datele disponibile (antrenament și testare) și se poate evalua calitatea acestuia pe setul de control Dacă calitatea modelului pe datele de control este semnificativ mai slabă decât pe datele testului, aceasta poate însemna că procedura de validare a fost nesigură sau că procesul de reglare a parametrilor modelului a arătat un efect de supraadaptare asupra datelor de testare În acest caz, puteți încerca să treceți la utilizarea unui alt protocol de estimare, mai robust (cum ar fi testarea iterativă împotriva blocurilor K cu amestecare) Capitolul Fundamentele învățării automate Scurt rezumat al capitolului □ Definiți sarcina și datele pe care să vă antrenați Colectați aceste date și, dacă este necesar, adnotă-le ▸ Alegeți o măsură a succesului, indicatori care pot fi urmăriți în raport cu datele de validare □ Alegeți un protocol de evaluare: veți evalua pe un set de validare eșantionat sau pe o metodă de validare încrucișată K bloc? Ce parte din date ați putea folosi pentru a valida? □ Dezvoltați primul model care este mai bun decât cazul de bază: un model cu putere statistică □ Proiectați un model care suferă de efectul de supraajustare □ Regularizați modelul și reglați hiperparametrii acestuia pe baza scorului de calitate al datelor de validare O mulțime de cercetări în domeniul învățării automate se concentrează numai pe acest pas - dar nu pierdeți din vedere imaginea de ansamblu PARTEA II Învățare profundă în practică Capitolele - vă vor ajuta să vă faceți o idee despre cum să rezolvați probleme practice folosind învățarea profundă Majoritatea exemplelor de cod sunt concentrate în această parte Învățare profundă în tehnologiile computerizate Acest capitol acoperă următoarele subiecte: z este esența rețelelor neuronale convoluționale; z extinderea setului de date de antrenament pentru a reduce efectul supraajustării; z folosind o rețea neuronală convoluțională pre-antrenată pentru extragerea caracteristicilor; z reantrenarea unei rețele neuronale convoluționale preantrenate; z vizualizarea proceselor de învățare ale rețelelor neuronale convoluționale și luarea deciziilor acestora Acest capitol prezintă rețelele neuronale convoluționale, un tip de model de învățare profundă utilizat aproape universal în aplicațiile de viziune computerizată (recunoaștere a modelelor) Aici, veți învăța cum să aplicați rețelele neuronale convoluționale problemelor de clasificare a imaginilor, în special problemele cu seturi de date de antrenament mici, care sunt cele mai comune, dacă nu lucrați pentru o companie mare de tehnologie Introducere în rețelele neuronale convoluționale În această secțiune, ne vom scufunda în teoria rețelelor neuronale convoluționale și vom afla motivele succesului acestora în sarcinile de recunoaștere a modelelor Dar mai întâi, să ne uităm la un exemplu practic de rețea neuronală convoluțională simplă, în care rețeaua este folosită pentru a clasifica imaginile cifrelor din setul MNIST Am rezolvat această problemă Introducere în rețelele neuronale convoluționale în Capitolul folosind o rețea complet conectată (precizia sa asupra datelor de control a fost de , %) În ciuda simplității rețelei neuronale convoluționale, acuratețea acesteia va fi semnificativ mai mare decât modelul complet conectat din capitolul Lista arată cum arată o rețea neuronală convoluțională simplă Acesta este o stivă de straturi de Conv D și MaxPooling D Cum funcționează este descris mai jos Lista Construirea unei mici rețele neuronale convoluționale ■ Din straturi de import Keras din modelele de import keras model = modele Sequential() model add(layers Conv D( , ( , ), activation='relu', input shape=( , , ))) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) Este important de reținut că această rețea acceptă ca intrare tensori cu formă (înălțime imagine, lățime imagine, canale) (fără a include dimensiunea care definește pachetele) În acest caz, am configurat rețeaua să proceseze intrări cu dimensiuni ( , , ) corespunzătoare formatului de imagine din setul MNIST, trecând argumentul input shape= ( , , ) la primul strat Să aruncăm o privire mai atentă asupra arhitecturii actuale a rețelei: >>> model rezumatO Strat (tip) Formă de ieșire Param # conv d l (Conv D) (Niciunul, , , ) maxpooling d l (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) Total parametri: Parametri antrenabili: Parametri neantrenați: După cum puteți vedea, toate straturile, Conv D și MaxPooling D, scot un tensor D cu o formă (înălțime, lățime, canale) Măsurătorile lățimii și înălțimii se micșorează pe măsură ce adâncimea rețelei crește Numărul de canale este controlat de primul argument transmis straturilor Conv D ( sau ) Capitolul Învățare profundă în tehnologiile computerizate Următorul pas este să trecem ultimul tensor de ieșire (de forma ( , , )) la intrarea unei rețele de clasificare complet conectate, precum cea cu care suntem deja familiarizați: stiva de strat Dense Aceste clasificatoare procesează vectori - rețele unidimensionale, în timp ce ieșirea curentă este un tensor tridimensional Prin urmare, trebuie mai întâi să convertim ieșirea D în D și apoi să adăugăm niște straturi Dense deasupra Lista Adăugarea unui clasificator peste o rețea neuronală convoluțională model add(straturi Flatten()) model add(layers Dense( , activation='relu')) model add(layers Dense( , activation='softmax')) Implementăm o clasificare cu vizualizări folosind un strat finit cu ieșiri și o funcție de activare softmax Iată cum arată acum rețeaua: >>>model summary() Strat (tip) Formă de ieșire Param # conv d l (Conv D) (Niciunul, , , ) maxpooling d l (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) flatten l (Aplatizare) (Niciunul, ) dens l (Dens) (Niciunul, ) dens (Dens) (Niciunul, ) Total parametri: Parametri antrenabili: Parametri neantrenați: După cum puteți vedea, ieșirile ( , , ) sunt convertite în vectori cu forma ( ,) înainte de a fi trecute la cele două straturi Dense Acum haideți să antrenăm rețeaua alimentând-o cu numere din setul MNIST În cele ce urmează, vom reutiliza o mare parte din codul din capitolul Lista Antrenarea unei rețele neuronale convoluționale pe datele din setul de date MNIST din keras datasets import mnist din keras utils import to categorical Introducere în rețelele neuronale convoluționale (imagini tren, etichete tren), (imagini test, etichete test) = mnist load data() train images = train images reshape(( , , , )) train images = train images astype('float ') / test images = test images reshape(( , , , )) test images = test images astype('float ') / etichete tren = to categorical(train labels) test labels = to categorical(test labels) model compile(optimizer='rmsprop', loss='categoric crossentropie', metrics=['acuratețe']) model fit(train images, train labels, epochs= , batch size= ) Să evaluăm modelul pe datele de control: >>> test loss, test acc = model evaluate(test images, test labels) >>> testacc , Rețeaua complet conectată din Capitolul a arătat o acuratețe de , % în datele de control, iar rețeaua neuronală convoluțională simplă a arătat o acuratețe de , %: am redus rata de eroare cu % (relativ) Nu-i rău! Dar de ce o rețea neuronală convoluțională atât de simplă funcționează atât de bine în comparație cu un model complet conectat? Pentru a răspunde la această întrebare, să ne aprofundăm în detaliile modului în care funcționează straturile Conv D și MaxPooling D Operațiune de colaps Principala diferență între un strat complet conectat și un strat convoluțional este următoarea: Straturile dense învață modele globale în spațiul caracteristicilor de intrare (de exemplu, în cazul numerelor din setul MNIST, acestea sunt modele care implică toți pixelii), în timp ce straturile convoluționale învață modele locale (Fig ): în cazul imaginilor, modele în ferestre mici D în intrare În exemplul anterior, toate astfel de ferestre aveau dimensiunea de * Această caracteristică cheie conferă rețelelor neuronale convoluționale două proprietăți importante: □ Tiparele pe care le învață sunt invariante de transfer După ce a învățat un anumit model în colțul din dreapta jos al imaginii, rețeaua neuronală convoluțională va putea Orez Imaginile pot fi împărțite în modele locale, cum ar fi margini, texturi etc Capitolul Învățare profundă în tehnologiile computerizate să-l cunoști peste tot: de exemplu, în colțul din stânga sus O rețea complet conectată ar trebui să reînvețe modelul dacă apare în altă parte Acest lucru crește eficiența rețelelor convoluționale în sarcinile de procesare a imaginilor (deoarece lumea vizibilă este inerent transfer-invariantă), astfel de rețele necesită mai puține mostre de antrenament pentru a obține reprezentări care au puterea de generalizare □ Ei pot explora ierarhiile modelelor spațiale (Figura ) Primul strat convoluțional va învăța modele locale mici, cum ar fi muchiile, al doilea va învăța modele mai mari formate din caracteristici returnate de primul strat și așa mai departe Acest lucru permite rețelelor neuronale convoluționale să învețe eficient reprezentări vizuale din ce în ce mai complexe și abstracte (deoarece vizibilă lumea este în mod inerent spațial-ierarhică) Orez Lumea vizibilă este formată din ierarhii spațiale ale modulelor vizibile: marginile hiperlocale sunt combinate în obiecte locale, cum ar fi ochii sau urechile, care, la rândul lor, sunt combinate în concepte și de nivel superior, precum "pisica" Convoluția se aplică tensorilor D, numiți hărți de caracteristici, cu două axe spațiale (înălțime și lățime) și o axă de adâncime (sau canal) Pentru imaginile RGB, dimensiunea axei de adâncime este , deoarece există trei canale de culoare: roșu (roșu), verde (verde) și albastru (bue) Pentru imaginile alb-negru, ca în setul MNIST, axa de adâncime are o dimensiune de (scale de gri) Operația de pliere extrage modelele din harta caracteristică de intrare și aplică aceleași transformări tuturor modelelor, producând o hartă caracteristică de ieșire Această hartă a caracteristicilor de ieșire este, de asemenea Introducere în rețelele neuronale convoluționale tensor tridimensional: are o lățime și o înălțime Adâncimea sa poate fi de orice dimensiune deoarece adâncimea de ieșire este un parametru de strat și diferitele canale de pe această axă de adâncime nu mai corespund unor culori specifice ca în intrarea RGB, mai degrabă corespund filtrelor Filtrele reprezintă aspecte particulare ale intrării: la nivelul superior, de exemplu, un filtru ar putea corespunde noțiunii de "prezență a unei persoane în intrare" În exemplul MNIST, primul strat convoluțional preia o hartă de caracteristici cu dimensiunea ( , , ) și scoate o hartă de caracteristici cu dimensiunea ( , , ): calculează de filtre pe intrare Fiecare dintre aceste de canale de ieșire conține o grilă de valori de x , o hartă a răspunsurilor filtrului pe intrare care determină răspunsul acelui șablon de filtru pentru diferite secțiuni ale intrării (Figura ) Asta înseamnă termenul de hartă a caracteristicilor, fiecare dimensiune de pe axa de adâncime este o caracteristică (sau un filtru), iar ieșirea tensorului D[:, :, n] este o hartă spațială D a răspunsurilor filtrului la intrare intrarea originală Harta de răspuns, cuantifică prezența modelului de filtru în diferite zone Orez Conceptul unei hărți de răspuns: o hartă bidimensională a prezenței unui șablon în diferite părți ale datelor de intrare Convoluțiile sunt definite de doi parametri cheie: □ Mărimea modelelor extrase din intrare este de obicei x sau * Acest exemplu folosește x , care este o alegere comună □ Adâncimea hărții caracteristicilor de ieșire - numărul de filtre calculat prin convoluție În acest exemplu, convoluția începe la adâncimea și se termină la adâncimea În Keras, acești parametri sunt trecuți straturilor Conv D ca primii argumente: Conv (output depth, (window height, window width)) Convoluția funcționează cu o metodă de fereastră glisantă: mută o fereastră * sau x pe harta caracteristicilor de intrare D, se oprește în fiecare poziție posibilă și extrage un model D al caracteristicilor din jur (cu formă (window height, window width, input depth) ) Fiecare astfel de model D este apoi transformat (prin înmulțirea tensorului cu matricea de greutate, Capitolul Învățare profundă în tehnologiile computerizate obținut în timpul antrenamentului, care se numește nucleu de convoluție) într-un vector unidimensional cu o formă (adâncime de ieșire) Toți acești vectori sunt apoi asamblați într-o hartă de ieșire a formei D (înălțime, lățime, adâncime de ieșire) Fiecare locație spațială din harta caracteristicilor de ieșire corespunde aceleiași locații din harta caracteristicilor de intrare (de exemplu, colțul din dreapta jos al ieșirii conține informații despre colțul din dreapta jos al intrării) De exemplu, pentru o fereastră x , rezultatul vectorial[i, j, : ] corespunde intrării modelului D[il:i+ , j - : j+ , : ] Procesul complet este prezentat în Fig Harta caracteristicilor de intrare Modele de intrare x scalar produs per nucleu Adâncime Ieșire Șabloane convertite Adâncime Ieșire Orez Cum funcționează convoluția Harta caracteristicilor de ieșire Rețineți că lățimea și înălțimea de ieșire pot diferi de cele de intrare Există două motive pentru aceasta: □ efecte de frontieră care pot fi eliminate prin mărirea hărții caracteristicilor de intrare; □ folosind pasul de convoluție, care este definit mai jos Să aruncăm o privire mai atentă asupra acestor concepte Introducere în rețelele neuronale convoluționale Efecte de chenar și umplutură Luați în considerare o hartă de caracteristici * ( de celule în total) Există doar celule care pot conține centrul unei ferestre * , formând o grilă * (Fig ) Prin urmare, harta caracteristicilor de ieșire va avea o dimensiune de * S-a dovedit a fi puțin comprimat: exact două celule de-a lungul fiecărei dimensiuni Puteți vedea efectul de margine în exemplul anterior: inițial aveam x de intrări, care au fost reduse la * după primul strat convoluțional Orez Locații valide de model * într-o hartă a caracteristicilor de intrare * Umplutura poate fi utilizată pentru a produce o hartă caracteristică de ieșire cu aceleași dimensiuni spațiale ca și harta de intrare Adăugarea este de a adăuga un număr adecvat de rânduri și coloane pe fiecare parte a hărții caracteristicilor de intrare, astfel încât centrul ferestrei de convoluție să poată fi plasat în fiecare celulă de intrare Pentru o fereastră * , trebuie să adăugați o coloană la dreapta, o coloană la stânga, un rând deasupra și un rând dedesubt Pentru o fereastră de * , trebuie să adăugați două linii (Fig ) Orez Completarea hărții de caracteristici de intrare * pentru a obține de modele * Capitolul Învățare profundă în tehnologiile computerizate Când se utilizează straturi Conv D, padding este configurat folosind argumentul padding, care ia două valori: "valid", adică fără padding (se vor folosi doar locații valide ale ferestrelor) și "same" însemnând "pad, astfel încât harta caracteristicilor de ieșire să aibă aceeași lățime și înălțimea ca intrare În mod implicit, argumentul padding este setat la "valid" Etapa de convoluție Un alt factor care poate afecta dimensiunea hărții caracteristicilor de ieșire este pasul de convoluție Până acum, explicațiile de mai sus au presupus că celula centrală a ferestrei de convoluție este mutată succesiv în celulele adiacente ale hărții de intrare Cu toate acestea, în general, distanța dintre două ferestre adiacente este un parametru configurabil numit pas de convoluție și este implicit la Este, de asemenea, posibil să se definească convoluții cu pas - convoluții cu un pas mai mare de În Figura , puteți vedea cum sunt extrase modelele de convoluție x cu pasul din harta de intrare * (fără umplutură) Orez Modele " convoluție cu pasul Utilizarea pasului înseamnă reducerea lățimii și înălțimii hărții caracteristicilor prin înjumătățirea rezoluției (în plus față de orice modificări cauzate de efectele de margine) Pliurile spațiale sunt rar folosite în practică, deși pot fi utile în unele tipuri de modele, așa că este o idee bună să fii conștient de această posibilitate Pentru a reduce rezoluția unei hărți de caracteristici, în loc de un pas, se folosește adesea operația de alegere a valorii maxime din vecină (max-pooling), pe care ați văzut-o în exemplul primei rețele neuronale convoluționale Să o luăm în considerare mai detaliat Introducere în rețelele neuronale convoluționale Selectarea valorii maxime din vecină (max-pooling) În exemplul rețelei neuronale convoluționale, este posibil să fi observat că dimensiunea hărții caracteristicilor este înjumătățită după fiecare strat MaxPooling D De exemplu, înainte de primul strat MaxPooling D, harta caracteristicilor avea o dimensiune de x , dar operațiunea de alegere a valorii maxime din valorile învecinate a redus-o la o dimensiune de * Acesta este scopul acestei operațiuni : reducerea agresivă a rezoluției hărții caracteristicilor, la fel ca convoluția cu spații Operația de alegere a valorii maxime dintre cele învecinate este următoarea: o fereastră este extrasă din harta caracteristicilor de intrare și valoarea maximă pentru fiecare canal este selectată din aceasta Conceptual, aceasta este similară cu convoluția, dar în loc să transforme modelele locale cu antrenament de transformare liniară (nucleul convoluției), acestea sunt transformate folosind o operație de valoare maximă a tensorului codificată Principala diferență față de convoluție este că selectarea valorii maxime din valorile învecinate se face de obicei cu o fereastră x și un pas de pentru a reduce rezoluția hărții caracteristicilor la jumătate Convoluția în sine, pe de altă parte, este de obicei efectuată cu o fereastră * și fără pas (pasul este ) Care este scopul reducerii rezoluției hărții caracteristicilor? De ce nu eliminați pur și simplu straturile MaxPooling D și folosiți hărți de caracteristici mai mari? Să luăm în considerare această opțiune Baza convoluțională a modelului în acest caz va arăta astfel: model no max pool = modele Sequential() model no max pool add(layers Conv D( , ( , ), activation='relu', input shape=( , , ))) model no max pool add(layers Conv D( , ( , ), activation='relu')) model no max pool add(layers Conv D( , ( , ), activation='relu')) Rezumatul modelului: >>> model no max pool summary() Strat (tip) Formă de ieșire Param # conv d (Conv D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) Parametri totale: Parametri antrenabili: Parametri neantrenați: Capitolul • Deep Learning in Computer Vision Ce este în neregulă cu această configurație? Doua lucruri: □ Nu contribuie la studiul ierarhiei spațiale a caracteristicilor Ferestrele x din al treilea strat conțin doar informațiile care provin din cele ^ ferestre din datele originale Modelele de nivel înalt învățate cu o rețea neuronală convoluțională vor fi prea mici în comparație cu datele inițiale, ceea ce poate să nu fie suficient pentru a învăța clasificarea cifrelor (încercați să recunoașteți o cifră privind-o prin ferestre de x pixeli!) Avem nevoie de caracteristicile obținute din ultimul strat convoluțional să conțină informații despre setul de date originale □ Harta caracteristică finală are x x = coeficienți per eșantion Aceasta este mult Dacă ați alege să îl faceți plat pentru a suprapune un strat Dense deasupra, acel strat ar avea , milioane de parametri Acest lucru este prea mult pentru un model atât de mic și va avea ca rezultat o supraadaptare grea Mai simplu spus, reducerea la scară este utilizată pentru a reduce numărul de coeficienți dintr-o hartă de caracteristici pentru procesare, precum și pentru a introduce ierarhii de filtre spațiale prin crearea de straturi de convoluție succesive pentru a vizualiza ferestre din ce în ce mai mari (în ceea ce privește fracția din datele originale pe care le acoperă) Rețineți că operațiunea cu valoarea maximă nu este singura modalitate de a reduce rezoluția După cum știți deja, pe straturile convoluționale anterioare, puteți utiliza și pasul de convoluție De asemenea, în loc să alegeți valoarea maximă, puteți utiliza operația de pooling mediu, în care fiecare șablon local este transformat luând valoarea medie pentru fiecare canal din șablon în loc de maximă Cu toate acestea, operațiunea cu valoare maximă produce de obicei rezultate mai bune decât aceste soluții alternative Motivul este că caracteristicile tind să codifice prezența spațială a unui model sau concept în diferite celule ale hărții caracteristicilor, astfel încât prezența maximă a caracteristicilor este mult mai informativă decât prezența medie Prin urmare, o strategie de reducere a rezoluției mai rezonabilă este să obțineți mai întâi hărți dense de caracteristici (prin convoluție normală fără goluri) și apoi să luați în considerare valorile maxime ale caracteristicilor în modele mici, mai degrabă decât ferestre rare din datele de intrare (prin convoluție cu goluri) sau modele medii , ceea ce poate duce la pierderea informațiilor despre prezență În acest moment, ar trebui să aveți o înțelegere destul de bună a elementelor de bază ale rețelelor neuronale convoluționale - hărți de caracteristici, operații de convoluție și max-neighbor și cum să construiți o mică rețea neuronală convoluțională pentru a rezolva ceva la fel de simplu ca și clasificarea cifrelor din setul MNIST Acum să trecem la aplicații mai utile și practice Antrenarea unei rețele neuronale convoluționale de la zero pe un set de date mic Antrenarea unei rețele neuronale convoluționale de la zero pe un set de date mic Necesitatea de a instrui un model de clasificare a imaginilor pe o cantitate foarte mică de date este o situație obișnuită pe care probabil o veți întâlni în practica dumneavoastră dacă sunteți angajat în recunoașterea imaginilor folosind tehnologii de viziune computerizată la nivel profesional Un volum "mic" înseamnă de la câteva sute la câteva zeci de mii de imagini Ca exemplu practic, luați în considerare clasificarea imaginilor de câini și pisici dintr-un set de date care conține de imagini ( de pisici, de câini) Vom folosi de imagini pentru antrenament, pentru validare și pentru control Această secțiune discută o strategie simplă pentru rezolvarea acestei probleme: antrenarea unui nou model de la zero cu o cantitate mică de date inițiale Mai întâi vom antrena o mică rețea neuronală convoluțională pe de eșantioane de antrenament fără a aplica regularizarea pentru a stabili o linie de bază a ceea ce este realizabil Ne va oferi o precizie de clasificare de %> Din acest moment, efectul de recalificare va începe să apară Apoi vi se va prezenta o modalitate eficientă de reducere a gradului de supraadaptare în recunoașterea modelelor - creșterea datelor Cu aceasta, vom crește acuratețea clasificării la %> În secțiunea următoare, ne vom uita la alte două tehnici de bază de învățare profundă pe seturi de date mici: extragerea caracteristicilor folosind o rețea pre-antrenată (va ajuta la creșterea preciziei de la la %) și re-instruirea unei rețele pre-antrenate (va ajuta la obținerea unei acuratețe finale) de %) Împreună, aceste trei strategii - antrenarea unui model mic de la zero, extragerea de caracteristici folosind un model preantrenat și reantrenarea acelui model - vor deveni setul dvs principal de instrumente pentru rezolvarea problemelor de clasificare a imaginilor antrenate pe seturi de date mici Utilitatea învățării profunde pentru rezolvarea problemelor cu seturi de date mici Se aude uneori că învățarea profundă poate fi aplicată numai atunci când există o cantitate mare de date Această afirmație este doar parțial adevărată: una dintre principalele caracteristici ale învățării profunde este capacitatea de a găsi în mod independent caracteristici informative în datele de antrenament, fără a construi manual caracteristici, iar acest lucru este realizabil doar cu o cantitate mare de exemple de antrenament Acest lucru este valabil mai ales pentru sarcinile în care mostrele de intrare au multe dimensiuni, cum ar fi imaginile Totuși, conceptul de "cantitate mare de date" este foarte relativ, în primul rând în raport cu dimensiunea și adâncimea rețelei instruite Nu se poate antrena convoluțional Capitolul • Deep Learning in Computer Vision o rețea neuronală pentru a rezolva o problemă complexă pe câteva zeci de mostre, dar câteva sute pot fi suficiente dacă modelul este mic și regularizat, iar problema de rezolvat este simplă Deoarece rețelele neuronale convoluționale învață caracteristici invariante de transfer local, ele sunt foarte eficiente în rezolvarea problemelor de recunoaștere Antrenarea unei rețele neuronale convoluționale de la zero pe un set foarte mic de imagini dă rezultate destul de bune, în ciuda lipsei relative de date, fără a fi nevoie de a construi manual caracteristici În această secțiune, vom vedea acest lucru în practică În plus, modelele de învățare profundă sunt în mod inerent foarte flexibile: puteți, de exemplu, să antrenați un model pentru clasificarea imaginilor sau recunoașterea vorbirii pe un set de date foarte mare și apoi să îl utilizați pentru a rezolva o mare varietate de probleme cu modificări minore În special în recunoașterea imaginilor, multe modele pre-antrenate (de obicei pe setul de date ImageNet) sunt acum disponibile pentru descărcare de oricine și pot fi folosite ca bază pentru construirea unor modele foarte puternice de recunoaștere a imaginii pe cantități mici de date Este exact ceea ce vom face în secțiunea următoare Să începem cu obținerea datelor Încărcare date Câinii vs Cats" pe care le vom folosi nu este livrat cu Keras A fost creat în timpul competiției de recunoaștere a modelelor de la sfârșitul anului , când rețelele neuronale convoluționale nu luaseră încă conducerea, și este disponibil pe site-ul web Kaggle Acest kit poate fi obținut de la: www kaggle com/c/dogs-vs-cats/data (pentru aceasta va trebui să vă creați un cont pe site-ul Kaggle dacă nu aveți deja unul, dar nu vă faceți griji , procesul de înregistrare este foarte simplu) Acest set conține imagini JPEG cu rezoluție scăzută Pe fig prezintă câteva exemple Nu este surprinzător că competiția Kaggle de clasificare a imaginilor de pisici și câini din a fost câștigată de concurenți folosind rețele neuronale convoluționale Cele mai bune rezultate au obținut o precizie de %> În acest exemplu, vom aborda această acuratețe (în secțiunea următoare), chiar dacă vom folosi mai puțin de % din datele care au fost disponibile concurenților pentru a antrena modelele Acest set conține de imagini de pisici și câini ( pentru fiecare clasă), însumând MB (comprimate) După descărcarea și extragerea arhivei, vom crea un nou set împărțit în trei subseturi: un set de antrenament cu de mostre din fiecare clasă, un set de validare cu de mostre din fiecare clasă și un set de control cu de mostre din fiecare clasă Antrenarea unei rețele neuronale convoluționale de la zero pe un set de date mic Orez Exemple de imagini din "Dogs vs Pisică Dimensiunile nu au fost modificate: imaginile au dimensiuni diferite, unghiuri de fotografiere etc Codul din Lista - face toată treaba Lista Copierea imaginilor în cataloagele de instruire, verificare și control Calea către directorul cu setul de date sursă dezambalat Director pentru a salva setul mic selectat import os, shutil original dataset dir = '/Users/fchollet/Downloads/kaggle original data' base dir = '/Users/fchollet/Downloads/cats and dogs small' os mkdir(base dir) train dir = os path join(base dir, 'tren') os mkdir(dir tren) validation dir = os path join(base dir, 'validare' os mkdir(dir validare) test dir = os path join(base dir, 'test') os mkdir(test dir) train cats dir = os path join(train dir, 'cats') os mkdir(train cats dir) train dogs dir = os path join(train dir, 'dogs') os mkdir(train dogs dir) Cataloage pentru subseturi de instruire, validare și control Catalog pentru imagini educative cu pisici Catalog pentru dresaj imagini cu câini Continuare Capitolul Învățare profundă în tehnologiile computerizate Lista (continuare) validation cats dir = os path join(validation dirJ 'cats') os mkdir(validation cats dig) validation dogs dir = os path join(validation dirJ "câini") os mkdir(validation dogs dig) Catalog pentru imagini de testare cu pisici Director pentru imagini de testare cu câini test cats dir = os path join(test dirj 'pisici') os mkdir(test cats dir) Catalog pentru imagini de referință cu pisici test dogs dir = os path join(test dirJ 'dogs') I Director pentru test os mkdir(test dogs dir) | imagini cu câini fnames = ['cat {} jpg' format(i) for i in range( )] for fname in fnames: src = os path join(original dataset dirj fname) dst = os path join(train cats dirj fname) shutil copyfile(srcj dst) Copierea primelor de imagini cu pisici în directorul train cats dir fnames = ['cat {} jpg' format(i) for i in range( , )] for fname in fnames: src = os path join(original dataset dirj fname) dst = os path join(validation cats dirj fname) shutil copyfile(srcj dst) fnames = ['cat {} jpg' format(i) for i in range( , )] for fname in fnames: src = os path join(original dataset dirj fname) dst = os path join(test cats dirj fname) shutil copyfile(srcj dst) fnames = ['dog {} jpg' format(i) for i in range( )] for fname in fnames: src = os path join(original dataset dirj fname) dst = os path join(train dogs dirj fname) shutil copyfile(srcj dst) Copierea primelor de imagini cu câini în directorul train dogs dir fnames = ['dog {} jpg' format(i) for i in range( , for fname in fnames: src = os path join(original dataset dirj fname) dst = os path join(validation dogs dirj fname) shutil copyfile(srcj dst) )] fnames = ['dog {} jpg' format(i) for i in range( , )] for fname in fnames: src = os path join(original dataset dirj fname) dst = os path join(test dogs dirj fname) shutil copyfile(src, dst) Copierea următoarelor de imagini de pisici în directorul validation cats dir Copierea următoarelor de imagini de pisici în directorul test cats dir Copierea următoarelor de imagini cu câini în directorul validation dogs dir Copierea următoarelor de imagini cu câini în directorul test dogs dir Pentru a verifica, să numărăm câte imagini au apărut în fiecare subset (antrenament / testare / control): Antrenarea unei rețele neuronale convoluționale de la zero pe un set de date mic >>> print('total de imagini de pisici de dresaj:', len(os listdir(train cats dir))) total de imagini de pisici de dresaj: >>> print('total de imagini câine de dresaj:len(os listdir(train dogs dir))) total imagini de câine de dresaj: >>> print('total validation cat images:len(os listdir(validation cats dir))) Imagini de pisici de validare totală: >>> print('imagini câine de validare totală:len(os listdir(dir validation dogs))) total de imagini cu câini de validare: >>> print('total test cat images:len(os listdir(test cats dir))) total test cat images: >>> print('total de imagini cu câini de testare:len(os listdir(test dogs dir))) total imagini cu câini de testare: Deci, avem într-adevăr de imagini de antrenament, de teste și de imagini de control Fiecare subset conține același număr de mostre din fiecare clasă: aceasta este o problemă de clasificare binară echilibrată, astfel încât precizia clasificării poate fi o măsură a succesului Proiectarea rețelei În exemplul anterior, am construit o mică rețea neuronală convoluțională pentru datele MNIST și acum știți ce este În acest exemplu, vom implementa aceeași structură generală: o rețea neuronală convoluțională va fi organizată ca o stivă de straturi alternative de Conv D (cu funcție de activare relu) și MaxPooling D Cu toate acestea, deoarece avem de-a face cu imagini mari și rezolvăm o problemă mai complexă, vom mări rețeaua: va avea o pereche de straturi Conv D + MaxPooling D în plus Acest lucru îi va crește capacitatea și va oferi o reducere suplimentară a dimensiunii hărților de caracteristici, astfel încât acestea să nu devină prea mari atunci când ajung la stratul Flatten Presupunând că începem cu intrări care sunt de x (o alegere complet arbitrară), ajungem cu o hartă de caracteristici ^ chiar înainte de stratul Flatten NOTĂ Adâncimea hărților de caracteristici din rețea va crește treptat (de la la ), iar dimensiunile acestora vor scădea (de la x la x ) Veți vedea acest model în aproape toate rețelele neuronale convoluționale Deoarece ne confruntăm cu o sarcină de clasificare binară, rețeaua trebuie să se încheie cu o singură caracteristică (un strat Dens cu dimensiunea și o funcție de activare a sigmoidului) Această caracteristică va reprezenta probabilitatea ca imaginea în cauză să aparțină uneia dintre cele două clase Capitolul Învățare profundă în tehnologiile computerizate Lista Construirea unei mici rețele neuronale convoluționale pentru a clasifica imaginile cu pisici și câini din straturi de import keras din modelele de import keras model = modele Sequential() model add(layers Conv D( , ( , ), activation='relu', input shape=( , , ))) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) model add(straturi MaxPooling D(( , ))) model add(straturi Flatten()) model add(layers Dense( , activation='relu')) model add(layers Dense(l, activation='sigmoid')) Să vedem cum se modifică dimensiunile hărților caracteristici cu fiecare strat următor: >>> model rezumatO Strat (tip) Formă de ieșire Param # conv d l (Conv D) (Niciunul, , , ) maxpooling d l (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) flatten l (Aplatizare) (Niciunul, ) dens l (Dens) (Niciunul, ) dens (Dens) (Niciunul, ) Total parametri: Parametri antrenabili: Parametri neantrenați: Antrenarea unei rețele neuronale convoluționale de la zero pe un set de date mic În etapa de compilare, ca de obicei, folosim optimizatorul RMSprop Deoarece rețeaua se termină cu o singură caracteristică, folosim funcția de pierdere binary crossentropy (ca reamintire, Tabelul oferă o foaie de cheat despre utilizarea diferitelor funcții de pierdere în diferite situații) Lista Configurarea modelului pentru antrenament de la Keras Import Optimizers model compile(loss='binary crossentmountain', optimizator=optimizers RMSprop(lr=le- ), metrics=['acc']) Preprocesarea datelor După cum știți deja, datele trebuie convertite în tensori reali înainte de a fi trimise în rețea Datele sunt stocate în prezent ca fișiere JPEG, așa că trebuie pregătite pentru transmiterea în rețea urmând acești pași: Citiți fișierele imagine Decodați conținutul din formatul JPEG în tabelele de pixeli RGB Convertiți-le în tensori cu numere reale Scalați valorile pixelilor de la intervalul [ , ] la intervalul [ , ] (după cum știți deja, este de preferat ca rețelele neuronale să treacă valori mici) Această procedură poate părea puțin complicată, dar, din fericire, Keras are utilități care o pot face automat Cadrul Keras are modulul Keras preprocesare imagine cu instrumente de procesare a imaginii În special, conține clasa ImageDataGenerator, care vă permite să configurați rapid generatoarele Python pentru a converti automat fișierele de imagine în pachete de tensor gata făcute Lista arată cum se utilizează Lista Utilizarea ImageDataGenerator pentru a citi imagini din cataloage din keras preprocessing image import ImageDataGenerator train datagen = ImageDataGenerator(rescale=l / ) I Scale valori test datagen = ImageDataGenerator(rescale=l / ) | cu un factor de / train generator = train datagen flow from directory( train dir, ◄ - Director țintă target size=( , ), ◄ - Redimensionați toate imaginile la x batch size= , Continuare & Capitolul Învățare profundă în tehnologiile computerizate Lista (continuare) class mode='binar') validation generator = test datagen flow from directory( validation dir, target size=( , ), batch size= , class mode='binary') Deoarece este utilizată funcția de pierdere binary crossentropy, etichetele trebuie să fie binare Generatoare Python Un generator în Python este un obiect care acționează ca un iterator și poate fi folosit cu o instrucțiune for în buclă Generatoarele se bazează pe utilizarea declarației de randament Iată un exemplu de generator care returnează numere întregi: generator def(): i = în timp ce este adevărat: i += randament i pentru elementul din generator(): imprimare (articol) dacă elementul > : pauză Următoarele vor fi afișate pe ecran: Luați în considerare rezultatul unuia dintre aceste generatoare: returnează loturi de imagini RGB de x (cu forma ( , , , )) și etichete binare (cu forma ( ,)) Fiecare pungă conține de mostre (dimensiunea pungii) Rețineți că acest generator returnează pachete la infinit: parcurge imaginile din directorul țintă la nesfârșit Din acest motiv, trebuie să întrerupem bucla la un moment dat: >>> pentru data batch, labels batch în train generator: >>> print('forma lot de date:', data batch shape) >>> print('labels batch shape:', labels batch shape) >>> pauză forma lotului de date: ( , , , ) forma lotului de etichete: ( ,) Să transmitem datele inițiale modelului folosind un generator Folosim metoda fit generator pentru aceasta, echivalentul metodei fit pentru generatoarele de date ca acesta În primul argument, acceptă un generator Python care revine la infinit Antrenarea unei rețele neuronale convoluționale de la zero pe un set mic de date de de loturi de intrări și ținte, la fel ca acest generator Deoarece datele sunt generate pe termen nelimitat, modelul Keras trebuie să știe câte mostre să ia de la generator înainte de a declara epoca încheiată Această funcție este realizată de argumentul steps per epoch: după extragerea pachetelor steps per epoch din generator, adică după executarea pașilor de coborâre a gradient steps per epoch, procesul de învățare trece la epoca următoare În acest caz, pachetele conțin de mostre, așa că pentru a obține de mostre, modelul va extrage de pachete Când utilizați metoda fit generator, puteți trece argumentul validation data în același mod ca și metoda fit Este important de reținut că acest argument poate fi nu numai un generator de date, ci și un tuplu de tablouri Numpy Dacă validation data primește un generator, este de așteptat să returneze pachete de date de validare la infinit; prin urmare, trebuie să treceți și argumentul validation steps, care specifică numărul de pachete de preluat de la generatorul de date de validare pentru evaluare Lista Antrenarea unui model folosind un generator de loturi istoric = model fit generator( train generator, steps per epoch= , epochs= , validation data=validation generator, validation steps= ) Este o practică bună să salvați întotdeauna modelele după antrenament Lista Salvarea unui model model save('cats and dogs small l h ') Să creăm grafice ale modificărilor în acuratețea și pierderea modelului în funcție de datele de antrenament și de testare în timpul procesului de antrenament (Fig și ) Lista Formarea graficelor de modificări ale pierderilor și preciziei în procesul de învățare import matplotlib pyplot ca plt acc = history historyf'acc ' ] val acc = history historyf'val acc'] loss = history historyf'loss ' ] val loss = history historyf'val loss'] epochs = range(l, len(acc) + ) plt plot(epochs, acc, 'bo', label='Training acc') plt plot(epochs, val acc, 'b', label='Validare acc') plt title('Precizia instruirii si validarii') plt legendă() plt figure() Continuare Capitolul Învățare profundă în tehnologiile computerizate Lista (continuare) plt plot(epochSj lossj 'bo', label='Pierderi de antrenament') plt plot^epochs, val loss, 'b', label='Pierderi de validare') plt title('Pierderi de formare si validare') plt legend () plt show() Orez Pierderi în fazele de pregătire și validare Efectul de supraadaptare este clar vizibil pe grafice Precizia datelor de antrenament crește liniar și se apropie de %, în timp ce acuratețea datelor de testare se oprește la aproximativ - %> Pierderea de validare atinge un minim după doar cinci epoci și apoi se stinge, în timp ce pierderea de antrenament continuă să scadă liniar, ajungând aproape la Deoarece avem relativ puține mostre de antrenament ( ), supraadaptarea devine problema numărul unu Cunoașteți deja câteva metode pentru a ajuta la atenuarea acestei probleme, cum ar fi subțierea și reducerea greutății Antrenarea unei rețele neuronale convoluționale de la zero pe un set de date mic (E -regularizare) Acum ne vom uita la o altă tehnică care este specifică recunoașterii modelelor și este folosită aproape universal în procesarea imaginilor folosind modele de învățare profundă: creșterea datelor Extensie de date Motivul supraajustării este că nu există suficiente mostre pentru a antrena un model care se poate generaliza la date noi Cu o cantitate infinită de date, ar fi posibil să se obțină un model care să ia în considerare toate aspectele distribuției datelor: efectul de supraadaptare nu s-ar produce niciodată Tehnica de extensie a datelor implementează abordarea creării de date suplimentare de antrenament din cele disponibile prin transformarea eșantioanelor cu o varietate de transformări aleatorii care oferă imagini plauzibile Scopul este de a se asigura că modelul nu vede niciodată aceeași imagine de două ori în timpul fazei de antrenament Acest lucru va ajuta modelul să dezvăluie mai multe caracteristici ale datelor și să obțină un grad mai bun de generalizare Puteți face acest lucru în Keras setând o serie de transformări aleatorii asupra imaginilor citite de instanța ImageDataGenerator Să începem cu un exemplu simplu Lista Personalizarea extensiei de date în ImageDataGenerator datagen = ImageDataGenerator^ rotation range= j width shift range= , height shift range= , shear range= , zoom range= J horizontal flip=T rue, fill mode='cel mai apropiat') Doar o parte dintre opțiunile posibile este prezentată aici (lista completă o puteți găsi în documentația pentru cadrul Keras) Să parcurgem rapid acest cod: □ rotation range - valoare în grade ( - ), intervalul în care imaginea va fi rotită aleatoriu; □ width shift și height shift - intervale (în fracțiuni de lățime și înălțime) în care imaginile sunt deplasate orizontal și respectiv vertical; □ shear range - pentru aplicarea aleatorie a transformării de forfecare; □ zoom range - pentru mărirea aleatorie în cadrul imaginilor; Capitolul Învățare profundă în tehnologiile computerizate □ horizontal f lip - pentru răsturnarea aleatorie a jumătate a imaginii pe orizontală - potrivită atunci când nu există presupuneri despre asimetria orizontală (de exemplu, în imaginile din lumea reală); □ fill mode - strategie de umplere pentru pixelii nou creați care apar după rotire sau deplasare orizontală/verticală Aruncă o privire la imaginile suplimentare (Figura ) Orez Imagini de pisici obținute prin aplicarea unor extensii aleatorii Lista Afișarea unor imagini de antrenament supuse unor transformări aleatorii din keras preprocessing import imagine fnames = [os path join(train cats dir, fname) pentru fname în os listdir(train cats dir)] img path Modul cu utilitati pentru procesarea imaginilor Citirea unei imagini și redimensionarea acesteia Selectarea unei imagini de extins img = image load img(img path, target size=( , )) - x = image img to array(img) ◄ Convertiți în matrice Numpy cu formă ( , , ) x = x reformă((l,) + x formă) ◄ Reforma la ( , , , ) Antrenarea unei rețele neuronale convoluționale de la zero pe un set de date mic i = pentru lot în datagen flow(x, batch size=l): plt figure(i) imgplot = plt imshow(image array to img(batch[ ])) i += dacă i % == : pauză Generarea de loturi de imagini transformate aleatoriu Bucla rulează pe termen nelimitat, așa că trebuie să se termine cu forța la un moment dat! plt show() Dacă o nouă rețea este antrenată folosind aceste setări de extensie de date, nu va vedea niciodată aceeași imagine de două ori Cu toate acestea, datele de intrare vor fi în continuare strâns legate, deoarece sunt obținute dintr-un număr mic de imagini originale - nu veți putea genera informații noi, o puteți repeta doar pe cea existentă Prin urmare, această soluție nu este suficientă pentru a scăpa de efectul de supraadaptare Continuând lupta împotriva acesteia, să adăugăm un strat Dropout la model chiar înainte de clasificatorul complet conectat Lista Definiția unei noi rețele neuronale convoluționale, inclusiv stratul de subțiere model = modele Sequential() model add(layers Conv D( , ( , ), activation='relu', form input=( , , ))) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) model add(straturi MaxPooling D(( , ))) model add(layers Conv D( , ( , ), activation='relu')) model add(straturi MaxPooling D(( , ))) model add(straturi Flatten()) model add(straturi Droout( )) model add(layers Dense( , activation='relu')) model add(layers Dense(l, activation='sigmoid')) model compile(loss='binary crossentmountain', optimizer=optimizers RMSprop(lr=le- ), metrics=['acc']) Să antrenăm rețeaua folosind extinderea și subțirea datelor Lista Antrenarea unei rețele neuronale convoluționale folosind generatoare de extensii de date train datagen = ImageDataGenerator( rescale=l / , rotation range= , width shift range= , , height shift range= , , Continuare & Capitolul Învățare profundă în tehnologiile computerizate Lista (continuare) shear range= , zoom range= , horizontal flip=T rue,) Rețineți că datele de validare nu trebuie extinse! test datagen = ImageDataGenerator(rescale=l / ) ◄- train generator = train datagen flow from directory( train dir, ◄ - Director țintă target size=( , ), ◄ - Redimensionați toate imaginile la x batch size= , class mode='binar') validation generator = test datagen flow from directory( validation dir, target size=( , ), batch size= , class mode='binary') Deoarece este utilizată funcția de pierdere binary crossentropy, etichetele trebuie să fie binare istoric = model fit generator( train generator, steps per epoch= , epochs= , validation data=validation generator, validation steps= ) Acum să salvăm modelul - îl vom folosi în Secțiunea Lista Salvarea unui model model save('cats and dogs small h ') Și din nou vom afișa grafice cu rezultatele (Fig și ) Aplicând expansiunea și subțirea datelor, practic am scăpat de supraajustare: curbele de acuratețe și pierdere din etapa de antrenament sunt apropiate de cele din etapa de verificare Acum am atins o precizie de %, o îmbunătățire de %, față de modelul neregularizat Orez Acuratețe în fazele de validare și antrenament cu creșterea datelor Utilizarea unei rețele neuronale convoluționale preantrenate Orez Pierderi în fazele de validare și instruire cu îmbunătățirea datelor Folosind metode suplimentare de regularizare și reglarea parametrilor de rețea (de exemplu, numărul de filtre pe strat convoluțional sau numărul de straturi din rețea), puteți obține o acuratețe și mai mare, aproximativ % sau % Cu toate acestea, va fi foarte dificil să treci peste acest punct prin antrenarea unei rețele neuronale convoluționale de la zero, deoarece avem prea puține date Următorul pas pentru a îmbunătăți acuratețea rezolvării acestei probleme este utilizarea unui model pre-antrenat, dar despre asta vom vorbi în următoarele două secțiuni Utilizarea unei rețele neuronale convoluționale preantrenate O abordare tipică și eficientă a învățării profunde pe seturi de imagini mici este utilizarea unei rețele pregătite în prealabil O rețea preantrenată este o rețea stocată care a fost antrenată anterior pe un set de date mare, de obicei ca parte a unei probleme de clasificare a imaginilor la scară largă Dacă acest set de date inițial este suficient de mare și suficient de generalizat, atunci ierarhia spațială a caracteristicilor învățate de rețea poate acționa eficient ca un model generalizat al lumii vizibile și poate fi utilă în multe probleme diferite de recunoaștere a modelelor, chiar dacă aceste noi probleme vor fi asociate cu clase complet diferite diferite de clasele din problema originală Cu alte cuvinte, puteți antrena rețeaua pe imagini din ImageNet (unde marea majoritate a claselor sunt animale și articole de uz casnic) și apoi să utilizați această rețea instruită pentru a identifica altceva, cum ar fi mobilierul din imagini Această portabilitate a caracteristicilor învățate în diferite sarcini este un avantaj major al învățării profunde față de multe tehnici mai vechi de învățare la suprafață și face ca învățarea profundă să fie un instrument foarte eficient pentru rezolvarea problemelor cu cantități mici de date Capitolul • Deep Learning in Computer Vision În cazul nostru, vom lua ca bază o rețea neuronală convoluțională antrenată pe setul ImageNet ( , milioane de imagini clasificate în de clase diferite) Colecția ImageNet conține multe imagini cu diferite animale, inclusiv varietăți de pisici și câini, ceea ce înseamnă că un model instruit pe această colecție poate fi de așteptat să facă o treabă excelentă de clasificare a imaginilor de pisici și câini Vom folosi arhitectura VGG dezvoltată de Karen Simonyan și Andrew Zisserman în ; este o arhitectură de rețea neuronală convoluțională simplă și utilizată pe scară largă pentru antrenament pe o colecție ImageNet Deși acesta este un model destul de vechi, cu mult în urma stadiului tehnicii, și puțin mai greu decât multe modele mai moderne, l-am ales pentru că arhitectura lui este similară cu exemplele prezentate în această carte mai sus și îți va fi mai ușor să-l înțeleagă fără familiarizarea cu unele concepte noi Poate că aceasta este prima ta întâlnire cu unul dintre toate aceste modele înfiorătoare - VGG, ResNet, Inception, Inception-ResNet, Xception etc ; dar cu timpul, te vei obișnui cu ele, pentru că deseori îți vor veni în cale dacă vei continua să aplici învățarea profundă recunoașterii modelelor Există două moduri de a utiliza rețelele pre-instruite: extragerea caracteristicilor și reglarea fină Ne vom uita la ambele și vom începe cu extragerea caracteristicilor Extragerea caracteristicilor Extragerea caracteristicilor constă în utilizarea reprezentărilor învățate de rețeaua anterioară pentru a extrage caracteristici din noi mostre, care sunt apoi rulate printr-un nou clasificator antrenat de la zero După cum se arată mai sus, rețelele neuronale convoluționale utilizate pentru clasificarea imaginilor constau din două părți: ele încep cu o secvență de selecție a valorilor și straturi de convoluție și se termină cu un clasificator complet conectat Prima parte se numește baza convoluțională a modelului În cazul rețelelor neuronale convoluționale, procesul de extragere a caracteristicilor este de a lua baza convoluțională a rețelei preantrenate, de a rula noi date prin aceasta și de a antrena un nou clasificator bazat pe rezultat (Figura ) De ce este reutilizată doar coloana vertebrală convoluțională? Este posibil să reutilizați un clasificator complet conectat? În general, acest lucru ar trebui evitat Motivul este că reprezentările obținute de coloana vertebrală convoluțională sunt de obicei mai multe Kagep Simonyan și Andrew Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition", arXiv ( ), https://arxiv org/abs/ Utilizarea unei rețele neuronale convoluționale preantrenate Prognoza t Prognoza L Prognoza f Clasificator antrenat kdasbifiKetoo Clasificator nou (inițializat cu numere aleatorii) f Tulpină convoluțională antrenată ► Tulpină convoluțională antrenată ► Tulpină convoluțională antrenată (înghețată) Autentificare Autentificare Autentificare Orez Înlocuirea clasificatorilor atunci când se utilizează aceeași bază convoluțională universale și, prin urmare, mai reutilizabile: hărțile de caracteristici ale unei rețele neuronale convoluționale sunt hărți ale prezenței conceptelor generalizate în imagini care pot fi utile indiferent de problema specifică a recunoașterii imaginilor Dar reprezentările învățate de clasificator vor fi în mod necesar caracteristice setului de clase pe care a fost antrenat modelul - vor conține doar informații despre probabilitatea prezenței unei anumite clase în imagine În plus, reprezentările prezente în straturi complet conectate nu conțin nicio informație despre locația obiectului în imaginea originală (aceste straturi le lipsește conceptul de spațiu), în timp ce hărțile de caracteristici convoluționale încă îl stochează Pentru problemele în care locația obiectelor contează, funcțiile complet conectate sunt aproape inutile De asemenea, observăm că nivelul de generalizare (și, în consecință, reutilizare) al reprezentărilor evidențiate de straturi convoluționale specifice depinde de adâncimea stratului din model Straturile care apar mai întâi extrag hărți de caracteristici locale, mai generalizate (cum ar fi marginile vizuale, culoarea și textura), în timp ce straturile care sunt mai departe (sau mai sus) extrag concepte mai abstracte (cum ar fi "ochiul de pisică" sau "ochiul câinilor" ") Prin urmare, dacă noul set de date este semnificativ diferit de cel pe care a fost antrenat modelul original, poate fi mai reușit să folosiți doar primele câteva straturi ale modelului, mai degrabă decât întreaga fundație convoluțională Capitolul • Deep Learning in Computer Vision În cazul nostru, deoarece setul de clase ImageNet conține mai multe clase de pisici și câini, ar fi probabil util să reutilizați informațiile conținute în straturile complet conectate ale modelului original Dar nu vom face acest lucru pentru a acoperi cazul mai general când setul de clase din noua problemă nu se suprapune cu setul de clase din modelul original Acum să fim practici și să folosim baza convoluțională a rețelei VGG instruită pe datele ImageNet pentru a extrage caracteristici utile din imaginile cu pisici și câini, apoi să antrenăm clasificatorul de pisici și câini pe baza acestor caracteristici Modelul VGG face parte din cadrul Keras Poate fi importat din modulul keras aplicatii Iată o listă de modele de clasificare a imaginilor (toate pre-antrenate pe setul ImageNet) disponibile în keras aplicatii: □ Excepție □ Inceput VO □ ResNet □VGG □VGG □Rețea mobilă Să creăm o instanță a modelului VGG Lista Instanțierea warp-ului convoluțional VGG din keras import de aplicații VGG conv base = VGG (weights='imagenet', include top=False, input shape=( , , )) Aici, trei argumente sunt transmise constructorului: □ Argumentul ponderi specifică sursa ponderilor pentru inițializarea modelului □ Argumentul include top determină dacă un clasificator complet conectat trebuie conectat la rețea În mod implicit, acest clasificator complet conectat se potrivește cu de clase de la ImageNet Deoarece intenționăm să folosim clasificatorul nostru complet conectat (cu doar două clase: pisică și câine), nu îl vom include □ Argumentul input shape definește forma tensorilor cu imagini care vor fi alimentate la intrarea rețelei Acesta este un argument opțional: dacă îl omiteți, rețeaua va putea procesa imagini de orice dimensiune Următoarele sunt informații despre baza convoluțională a VGG Seamănă cu rețelele neuronale convoluționale simple cu care ești deja familiarizat: Utilizarea unei rețele neuronale convoluționale preantrenate >>> conv base summary() Strat (tip) Formă de ieșire Param # input l (InputLayer) (Niciunul, , , ) blockl convl (Convolution D) (Niciunul, , , ) blockl conv (Convolution D) (Niciunul, , , ) blockl pool (MaxPooling D) (Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool(MaxPooling D)(Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool(MaxPooling D)(Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool (MaxPooling D) (Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool (MaxPooling D) (Niciunul, , , ) Total parametri: Parametri antrenabili: Parametri neantrenați: Harta caracteristică finală are forma ( , , ) Pe deasupra, punem un clasificator complet conectat Apoi puteți merge în două moduri: □ Rulați setul de date prin baza convoluțională, scrieți matricea Numpy rezultată pe disc și apoi utilizați-l ca intrare pentru Capitolul Învățare profundă în tehnologiile computerizate un clasificator separat, complet conectat, similar cu cel pe care l-am văzut în prima parte a cărții Aceasta este o soluție rapidă și ieftină, deoarece necesită rularea warp-ului convoluțional o singură dată pentru fiecare imagine de intrare, iar warp-ul convoluțional este cea mai scumpă parte a conductei Cu toate acestea, din același motiv, această tehnică nu va permite utilizarea tehnicii de extindere a datelor □ Adăugați modelul existent (conv base) cu straturi Dense și omiteți toate intrările Această cale permite extinderea datelor deoarece fiecare imagine trece prin baza convoluțională de fiecare dată când intră în model Cu toate acestea, din același motiv, această cale este mult mai costisitoare decât prima Vom acoperi ambele abordări Mai întâi, să ne uităm la codul care implementează primul truc: scrierea ieșirii conv base ca răspuns la transmiterea datelor noastre și utilizarea acesteia ca intrare în noul model Extragere rapidă a caracteristicilor fără extindere a datelor Mai întâi, să rulăm instanțe ale clasei ImageDataGenerator introdusă mai devreme pentru a extrage imaginile și etichetele lor în tablourile Numpy Apoi extragem caracteristici din aceste imagini apelând metoda predict a modelului conv base Lista Extragerea caracteristicilor folosind o bază convoluțională pre-antrenată import os import numpy ca np din keras preprocessing image import ImageDataGenerator base dir = '/Users/fchollet/Downloads/cats and dogs small' train dir = os path join(base dir, 'train') validation dir = os path join(base dir, 'validation') test dir = os path join(base dir, 'Test') datagen = ImageDataGenerator(rescale=l / ) batch size = def extract features(directoryj sample count): caracteristici = np zeros(shape=(sample count) generator = datagen flow from directory( director, target size=( j ), batch size=batch sizej class mode='binar') i = pentru inputs batch,, labels batch în generator: features batch = conv base predict(inputs batch) features[i * batch size: (i + ) * batch size] = features batch Utilizarea unei rețele neuronale convoluționale preantrenate etichete[i * dimensiune loturi: (i + ) * dimensiune lot] = lot etichete i += dacă eu * batch size >= sample count: pauză caracteristici de returnare, etichete train features, train labels = extract features(train dir, ) validation features, validation labels = extract features(validation dir, ) test features, test labels = extract features(test dir, ) Rețineți că, deoarece generatoarele se întorc la infinit, trebuie să întrerupem bucla după ce toate imaginile au fost trecute În acest moment, caracteristicile selectate au forma (eșantioane, , , ) Le vom trece la intrarea unui clasificator complet conectat, așa că trebuie să aducem acest tensor la forma (eșantioane, ): train features = np reshape(train features, ( , * * )) validation features = np reshape(validation features, ( , * * )) test features = np reshape(test features, ( , ) * )) Acum puteți defini clasificatorul complet conectat (rețineți că decimarea este folosită aici pentru regularizare) și să-l antrenați pe datele și etichetele nou scrise Lista Definirea și antrenamentul unui clasificator complet conectat din modelele de import keras din straturi de import keras de la Keras Import Optimizers model = modele Sequential() model add(layers Dense( , activation='relu', input dim= * * )) model add(straturi Droout( )) model add(layers Dense(l, activation='sigmoid')) model compile(optimizer=optimizers RMSprop(lr= e- ), loss='binary crossentropy', metrics=[' acc ' ]) istoric = model fit(train features, train labels, epochs= , batch size= , validation data=(validation features, validation labels)) Antrenamentul este foarte rapid pentru că am definit doar două straturi Dense - o epocă durează mai puțin de o secundă chiar și atunci când rulează pe CPU Să ne uităm acum la graficele de pierdere și acuratețe în procesul de învățare (Fig și ) Capitolul Învățare profundă în tehnologiile computerizate Orez Acuratețe în fazele de validare și antrenament pentru extragerea ușoară a caracteristicilor Orez Pierderi în fazele de validare și antrenament pentru extragerea simplă a caracteristicilor Lista Complot import matplotlib pyplot ca plt acc = history history['acc ' ] val acc = history history['val acc'] loss = history history['loss ' ] val loss = history history['val loss'] epoci = interval(l, len(acc) + ) plt plot(epochs, acc, 'bo', label='Training acc') plt plot(epochs, val acc, 'b', label='Validare acc') plt title('Acuratețe de formare și validare') plt legendă() Utilizarea unei rețele neuronale convoluționale preantrenate plt figure() plt plot(epochs, loss, 'bo', label='Training loss') plt plot(epochs, val loss, 'b', label='Validation loss') plt title('Training and validation loss') plt legend() plt show() Am obținut o precizie de aproape %, ceea ce este mai bun decât în secțiunea anterioară în care am antrenat un model mic de la zero Cu toate acestea, graficele arată, de asemenea, că efectul de supraadaptare a început să apară aproape de la bun început, în ciuda alegerii unui factor de subțiere destul de mare Acest lucru se datorează faptului că această tehnică nu folosește îmbunătățirea datelor, care este necesară pentru a preveni supraadaptarea pe seturi de imagini mici Extragerea caracteristicilor cu extensia de date Acum luați în considerare a doua tehnică de extracție a caracteristicilor, care este mai lentă și mai costisitoare, dar vă permite să utilizați extensia de date în procesul de instruire - metoda de extindere a modelului conv base și de a-l folosi pentru clasificare NOTĂ Această tehnică este atât de costisitoare încât ar trebui folosită numai cu un GPU - este absolut peste puterea procesorului Dacă nu aveți opțiunea de a rula codul pe un GPU, prima cale este singura soluție disponibilă pentru dvs Deoarece modelele acționează ca niște straturi, puteți adăuga un model (cum ar fi conv base) la un model secvenţial la fel ca un strat normal Lista Adăugarea unui clasificator complet conectat deasupra baza convolutionala din modelele de import keras din straturi de import keras model = modele Sequential() model add(conv base) model add(straturi Flatten()) model add(layers Dense( , activation='relu')) model add(layers Dense(l, activation='sigmoid')) Iată cum arată modelul acum: >>> model rezumatO Strat (tip) forma de ieșire Param# Capitolul • Deep Learning in Computer Vision vggl (Model) (Niciunul, , , ) aplatiza l (Aplatiza) (Niciunul, ) dens l (Dens) (Niciunul, ) dens (Dens) (Niciunul, ) Total parametri: Parametri antrenabili: Parametri neantrenați: După cum puteți vedea, baza convoluțională VGG are de parametri, ceea ce este un număr destul de mare Clasificatorul adăugat în partea de sus are milioane de parametri Este foarte important să înghețați fundația convoluțională înainte de a compila și antrena modelul Înghețarea unuia sau a mai multor straturi împiedică modificarea greutăților din ele în timpul antrenamentului Dacă acest lucru nu se face, atunci reprezentările învățate anterior de baza convoluțională se vor schimba în procesul de învățare pe date noi Deoarece straturile Dense de deasupra sunt inițializate cu valori aleatorii, în rețea pot apărea modificări semnificative ale greutăților, distrugând efectiv reprezentările primite mai devreme În Keras, pentru a îngheța rețeaua, trebuie să treceți atributul care poate fi antrenat cu o valoare False: >>> print('Acesta este numărul de greutăți antrenabile ' "înainte de a îngheța baza conv:", len(model trainable weights)) Acesta este numărul de greutăți antrenabile înainte de a îngheța baza conv : >>> conv base trainable = Fals >>> print('Acesta este numărul de greutăți antrenabile ' "după înghețarea bazei conv :", len(model trainable weights)) Acesta este numărul de greutăți antrenabile după înghețarea bazei de conversie: În acest caz, vor fi antrenate doar greutățile din cele două straturi Dense nou adăugate, adică un total de patru tensori de greutate: doi pe strat (matricea de greutate principală și vectorul de polarizare) Rețineți că modelul trebuie compilat pentru ca aceste modificări să aibă efect Dacă caracteristica de învățare a greutăților se modifică după ce modelul a fost compilat, modelul trebuie să fie recompilat din nou, altfel modificarea va fi ignorată Acum putem începe să antrenăm modelul Folosim aceleași setări de extensie de date ca în exemplul anterior Din nou, să construim grafice ale schimbărilor în pierderea și acuratețea în procesul de învățare (Fig și ) După cum puteți vedea, aproape am atins o precizie de % în faza de verificare Acest rezultat este mult mai bun decât în cazul antrenării unei mici rețele neuronale convoluționale de la zero Utilizarea unei rețele neuronale convoluționale preantrenate Orez Acuratețe în fazele de validare și instruire pentru extragerea caracteristicilor cu creșterea datelor Orez Pierderi în fazele de validare și instruire pentru extragerea caracteristicilor cu creșterea datelor Lista Antrenament complet model cu bază convoluțională înghețată din keras preprocessing image import ImageDataGenerator de la Keras Import Optimizers train datagen = ImageDataGenerator( rescale=l / j rotation range= j width shift range= , height shift range= , shear range= , zoom range= j horizontal flip=T rue, fill mode='nearest') test datagen = ImageDataGenerator(rescale=l / ) Notă: datele de verificare nu sunt necesare extinde! Continuare Capitolul • Deep Learning in Computer Vision Lista (continuare) train generator = train datagen flow from directory( train dir, ◄ Director țintă target size=( , ), ◄ Redimensionați toate imaginile la x batch size= , class mode='binary') Așa cum este folosit validation generator = test datagen flow from directory( validation dir, target size=( , ), batch size= , class mode='binary') funcția de pierdere binary crossentropy, etichetele trebuie să fie binare model compile(loss='binary crossentmountain', optimizer=optimizers RMSprop(lr= e- ), metrics=['acc ' ]) istoric = model fit generator( train generator, steps per epoch= , epochs= , validation data=validation generator, validation steps= ) Educatie suplimentara O altă tehnică utilizată pe scară largă pentru reutilizarea modelului care completează extragerea caracteristicilor este reglarea fină (Figura ) Reantrenarea constă în dezghețarea celor câteva straturi superioare ale modelului înghețat care a fost utilizat pentru extragerea caracteristicilor și antrenarea în comun a părții nou adăugate a modelului (în acest caz, clasificatorul complet conectat) și a acestor straturi superioare Această tehnică se numește recalificare deoarece ajustează ușor cele mai abstracte reprezentări din modelul reutilizabil pentru a le face mai relevante pentru sarcina în cauză Mai sus, am remarcat că este necesară înghețarea bazei convoluționale a rețelei VGG pentru a putea antrena un clasificator inițializat cu valori aleatorii Din același motiv, după antrenamentul clasificatorului, mai multe straturi superioare ale bazei convoluționale pot fi reantrenate Dacă clasificatorul nu a fost încă antrenat, semnalul eronat care se propagă prin rețea în timpul reantrenării va fi prea mare, iar reprezentările obținute la etapa anterioară de antrenament vor fi distruse Pentru a reanaliza rețeaua, trebuie să efectuați următorii pași: Adăugați rețeaua dvs peste rețeaua de bază instruită Înghețați rețeaua de bază Antrenează partea adăugată Utilizarea unei rețele neuronale convoluționale preantrenate Convolution D ♦ Convolution D ♦ MaxPooling D Convolution D ♦ Convolution D t MaxPooling D Convolution D ♦ Convolution D ♦ Convolution D ♦ MaxPooling D Convolution D ♦ Convolution D ♦ Convolution D t MaxPooling D Convolution D * Convolution D t Convolution D t MaxPooling D Aplatiza -g~ Dens ~g~ Dens Convoluțional bloc : congelat Blocul de convoluție : îngheţat Blocul de convoluție : îngheţat Blocul de convoluție : îngheţat Reantrenăm blocul convoluțional Ne antrenăm clasificatorul complet conectat Orez Reantrenarea ultimului bloc convoluțional al rețelei VGG Capitolul • Deep Learning in Computer Vision Dezghețați mai multe straturi din rețeaua de bază Antrenați aceste straturi și partea adăugată împreună Am finalizat deja primii trei pași în extragerea caracteristicilor Acum să facem pasul : dezghețați conv base și înghețați straturile individuale din el Să ne amintim cum arată baza noastră convoluțională: >>> conv base summary() Strat (tip) Formă de ieșire Param # input l (InputLayer) (Niciunul, , , ) blockl convl (Convolution D) (Niciunul, , , ) blockl conv (Convolution D) (Niciunul, , , ) blockl pool (MaxPooling D) (Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool(MaxPooling D)(Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool(MaxPooling D)(Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool (MaxPooling D) (Niciunul, , , ) block convl (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block conv (Convolution D) (Niciunul, , , ) block pool (MaxPooling D) (Niciunul, , , ) Total parametri: Utilizarea unei rețele neuronale convoluționale preantrenate Vom antrena ultimele trei straturi convoluționale, adică toate straturile de deasupra Liox poo trebuie să fie înghețate, iar straturile b oc conv , b oc conv și b oc conv ar trebui să fie disponibile pentru antrenament De ce să nu antrenați mai multe straturi? De ce să nu antrenați întreaga bază convoluțională? Puteți face acest lucru, dar țineți cont de următoarele □ Straturile inițiale din baza convoluțională codifică caracteristici mai generale reutilizabile, în timp ce straturile superioare codifică caracteristici mai specifice Este mult mai util să ajustați mai multe funcții specifice, deoarece acestea sunt adesea cele care trebuie reutilizate pentru a rezolva o nouă problemă Valoarea antrenamentului suplimentar al straturilor inferioare scade rapid odată cu adâncimea lor □ Cu cât sunt antrenați mai mulți parametri, cu atât este mai mare riscul de supraadaptare Fundația convoluțională are milioane de parametri, așa că ar fi prea riscant să încercăm să o reantrenăm în întregime pe setul nostru mic de date Adică, în această situație, cea mai bună strategie ar fi să antrenezi doar cele două sau trei straturi superioare ale bazei convoluționale Să facem asta reluând de unde am rămas în exemplul anterior Lista Înghețarea tuturor straturilor, cu excepția celor specificate conv base trainable = Adevărat set trainable = Fals pentru stratul din conv base layers: dacă layer name == 'block convl': set trainable = True dacă set trainable: layer trainable = Adevărat altceva: layer trainable = Fals Acum puteți începe să reinstruiți rețeaua Pentru a face acest lucru, folosim optimizatorul RMSProp cu o rată de învățare foarte scăzută Motivul pentru care se utilizează o rată scăzută de învățare este limitarea cantității de modificare care se face asupra reprezentărilor celor trei straturi reantrenate Modificările prea mari pot deteriora aceste reprezentări Lista Pregătire suplimentară a modelului model compile(loss='binary crossentmountain', optimizer=optimizers RMSprop(lr=le- ), metrics=['acc ' ]) istoric = model fit generator( train generator, steps per epoch= , epochs= , validation data=validation generator, validation steps= ) open-hide biz Capitolul • Deep Learning in Computer Vision Să trasăm rezultatele utilizând același cod ca înainte (Figurile și ) Orez Pierderi la etapele de verificare și pregătire pentru pregătirea suplimentară Se pare că curbele sunt distorsionate de zgomot Pentru a surprinde tendința, să netezim curbele prin înlocuirea pierderilor reale și a valorilor de precizie cu o medie mobilă exponențială Iată o funcție simplă de ajutor pentru aceasta (Figurile și ) Lista Netezirea graficelor def smooth curve(puncte,, factor= , ): puncte netezite = [] pentru punct în puncte: dacă puncte netezite: precedent = puncte netezite[- ] puncte netezite append(anterior * factor + punct * ( - factor)) altfel: Utilizarea unei rețele neuronale convoluționale preantrenate puncte netezite append(punct) returnează puncte netezite plt plot(epoci, smooth curve(acc), 'bo', label='Smoothed training acc') plt plot(epoci, smooth curve(val acc), 'b', label='Smoothed validation acc') plt title('Precizia antrenamentului si validarii') plt legend() plt figure() plt plot(epoci, smooth curve(pierdere), 'bo', label='Smoothed training loss') plt plot(epoci, smooth curve(val loss), 'b', label='Pierdere de validare netezită') plt title('Pierdere de formare și validare') plt legend() plt show() Acum, curba de precizie în faza de verificare pare mai netedă Vedem o îmbunătățire absolută de % a preciziei, de la % la %>, ceea ce este plăcut ochiului Rețineți că curba pierderilor nu prezintă nicio îmbunătățire reală (de fapt, a existat o deteriorare) S-ar putea să vă întrebați cum precizia poate rămâne stabilă sau chiar se poate îmbunătăți dacă pierderile nu scad? Răspunsul este simplu: pe grafice vedem valorile medii ale pierderilor pe puncte; dar distribuția valorilor pierderilor este importantă pentru acuratețe, nu media lor, deoarece acuratețea este rezultatul determinării pragurilor de probabilitate binare ale clasei prezise de model Modelul poate continua să se îmbunătățească chiar dacă acest lucru nu afectează pierderea medie Acum putem evalua în sfârșit modelul pe datele de testare: generator test = test datagen flow from directory( test dir, target size=( , ), batch size= , class mode='binary') test loss, test acc = model evaluate generator(test generator, steps= ) print('test acc:', test acc) Aici avem o precizie de %> În competiția originală Kaggle bazată pe acest set de date, acesta ar fi fost unul dintre cele mai bune rezultate Datorită metodelor moderne de învățare profundă, am reușit să obținem acest rezultat folosind doar o mică parte din datele de antrenament disponibile (aproximativ %) Există o diferență uriașă între antrenamentul pe și de mostre! Capitolul Învățare profundă în tehnologiile computerizate Orez Curbe de precizie netezite în etapele de verificare și pregătire pentru recalificare Orez Curbe de pierdere netezite la etapele de verificare și antrenament pentru antrenament suplimentar Rezumând Iată concluziile pe care ar trebui să le trageți din exemplele prezentate în cele două secțiuni anterioare: □ Rețelele neuronale convoluționale sunt cel mai bun tip de modele de învățare automată pentru problemele de recunoaștere a modelelor Este foarte posibil să antrenezi o astfel de rețea de la zero pe un set de date foarte mic și să obții un rezultat decent □ Când cantitatea de date este limitată, supraadaptarea devine o problemă majoră Mărirea datelor este un mijloc eficient de combatere a supraadaptării atunci când lucrați cu imagini □ O rețea neuronală convoluțională existentă poate fi reutilizată cu ușurință pe un nou set de date folosind extragerea caracteristicilor Această tehnică este deosebit de valoroasă atunci când lucrați cu seturi mici de imagini □ Pe lângă extragerea caracteristicilor, puteți utiliza tehnica de recalificare, care adaptează la noua sarcină unele dintre reprezentările anterioare Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională primit de modelul existent Îmbunătățește și mai mult calitatea modelului Acum aveți un set robust de instrumente pentru rezolvarea problemelor de clasificare a imaginilor, în special a celor cu date limitate Vizualizarea cunoștințelor inclusă într-o rețea neuronală convoluțională Se spune adesea că modelele de învățare profundă sunt "cutii negre": reprezentările pe care le-au învățat sunt greu de extras și prezentate într-o formă care poate fi citită de om Acest lucru este parțial valabil pentru unele tipuri de modele de învățare profundă, dar cu siguranță nu este valabil pentru rețelele neuronale convoluționale Reprezentările învățate de rețelele neuronale convoluționale sunt ușor de vizualizat, în mare parte datorită faptului că sunt concepte vizuale Din , au fost dezvoltate o gamă largă de metode de vizualizare și interpretare a acestor reprezentări În continuare, vom lua în considerare cele trei cele mai accesibile și practice dintre ele: □ vizualizarea ieșirilor intermediare ale unei rețele neuronale convoluționale (activări intermediare) - ajută la înțelegerea modului în care o secvență de straturi de rețea își transformă datele de intrare și arată, de asemenea, semnificația filtrelor individuale; □ Vizualizare filtru de rețea neuronală convoluțională - ajută la cunoașterea exactă a modelului vizual sau conceptului pentru care este responsabil fiecare filtru; □ vizualizarea hărților termice ale activării clasei într-o imagine - ajută la înțelegerea ce părți ale imaginii identifică aparținând unei clase date, ceea ce vă permite să identificați obiectele din imagini Pentru a demonstra prima metodă, vizualizarea activării, folosim o mică rețea neuronală convoluțională antrenată de la zero pentru a clasifica imaginile de pisici și câini în Secțiunea Pentru a demonstra celelalte două metode, folosim modelul VGG din Secțiunea Vizualizarea activărilor intermediare Vizualizarea activărilor intermediare constă în afișarea hărților de caracteristici care sunt ieșite de diferite straturi convoluționale și de pooling din rețea ca răspuns la anumite intrări (ieșirea stratului, rezultatul funcției de activare, este adesea numită activarea acestuia) Această tehnică vă permite să vedeți cum datele de intrare sunt descompuse în diferite filtre primite de rețea în timpul procesului de antrenament De obicei, hărțile caracteristicilor sunt utilizate pentru vizualizare cu trei dimensiuni: lățime, înălțime și adâncime (canale de culoare) Canalele codifică caracteristici relativ independente, așa că pentru a vizualiza aceste hărți de caracteristici, este de preferat să construiți imagini bidimensionale pentru fiecare canal separat Să începem prin a încărca modelul salvat în Secțiunea : Capitolul Învățare profundă în tehnologiile computerizate >>> din keras models import load model >>> model = load model('cats and dogs small h ') >>> model summaryO Ca o reamintire Strat (tip) Formă de ieșire Param # conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) conv d (Conv D) (Niciunul, , , ) maxpooling d (MaxPooling D) (Niciunul, , , ) aplatizare (aplatizare) (niciunul, ) dropout l (Dropout) (Niciunul, ) dens (Dens) (Niciunul, ) dens (Dens) (Niciunul, ) Total parametri: Parametri antrenabili: Parametri neantrenați: Apoi, alegeți o imagine de pisică de intrare care nu face parte din setul de antrenament Lista Preprocesarea unei singure imagini img path = '/Users/fchollet/Downloads/cats and dogs small/test/cats/cat jpg' din keras preprocesare import imagine ◄ i Transformare imagine import numpy ca ex | într-un tensor cu patru dimensiuni img = image load img(img path, target size=( , )) img tensor = imagine img to array(img) img tensor = np expand dims(img tensor, axis= ) img tensor /- ◄ Modelul a fost antrenat pe intrare date care sunt anterior # Forma sa ( , , , ) a fost prelucrată în acest fel print(img tensor shape) Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională Să afișăm imaginea originală (Fig ) O Orez Imaginea de testare a unei pisici Lista Afișează importul imaginii de testare matplotlib pyplot ca plt plt imshow(img tensor[ ]) plt show() Pentru a extrage hărțile caracteristicilor care urmează să fie redate, să creăm un model Keras care acceptă loturi de imagini și redă activările tuturor straturilor convoluționale și de grupare Pentru a face acest lucru, folosim clasa Model din cadrul Keras Constructorul de model ia două argumente: un tensor de intrare (sau o listă de tensori de intrare) și un tensor de ieșire (sau o listă de tensori de ieșire) Rezultatul va fi un obiect model Keras similar cu modelele secvențiale pe care le cunoașteți deja; acest model mapează intrările date la ieșirile date O caracteristică distinctivă a clasei Model este capacitatea de a crea modele cu ieșiri multiple Clasa Model este discutată mai detaliat în secțiunea Lista Instanțierea modelului dintr-un tensor de intrare și o listă de tensori de ieșire din modelele de import keras Extragerea rezultatelor primelor opt straturi layer outputs = [layer output pentru stratul din model layersf: ]] ◄ - activation model = modele Model(inputs=model input, outputs=layer outputs) Crearea unui model care va returna aceste ieșiri având în vedere o intrare dată Capitolul • Deep Learning in Computer Vision Dacă transmiteți o imagine acestui model, acesta va returna valorile de activare ale straturilor din modelul original Acesta este primul exemplu de model cu mai multe ieșiri din această carte: până acum, toate modelele prezentate mai sus au avut exact o intrare și o ieșire În general, un model poate avea orice număr de intrări și ieșiri În special, acest model are o intrare și opt ieșiri: una pentru fiecare activare a stratului Lista Rularea modelului în mod predictiv activări = activation model predict(img tensor) ◄-> Returnează o listă cu cinci matrice Numpy: una pentru fiecare activare a stratului Luați, de exemplu, activarea primului strat convoluțional pentru imaginea de intrare a unei pisici: >>> first layer activation = activări[ ] >>> print(first layer activation shape) ( , j j ) Aceasta este o hartă de caracteristici * cu de canale Să încercăm să afișăm al patrulea canal de activare al primului strat al modelului original (Fig ) Lista Vizualizarea celui de-al patrulea canal import matplotlib pyplot ca plt plt matshow(first layer activation[ J :, :, ], cmap='viridis') Acest canal pare a fi un detector de margine diagonală Acum să ne uităm la al șaptelea canal (Fig ) - dar rețineți că canalele dvs pot diferi, deoarece antrenarea filtrelor specifice nu este o operație deterministă O Orez Al patrulea canal de activare al primului strat pentru imaginea de testare a pisicii Orez Al șaptelea canal de activare al primului strat pentru imaginea de testare a pisicii Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională Listare Vizualizarea celui de-al șaptelea canal plt matshow(first layer activation[ , :, :, ], cmap='viridis') Se pare că este un detector de "punct verde strălucitor" care ar putea fi util pentru codificarea ochilor de pisică Acum să construim o vizualizare completă a tuturor activărilor din rețea (Fig ) Pentru a face acest lucru, extragem și afișam fiecare canal în toate cele opt hărți de activare, plasând rezultatele într-un singur tensor de imagine mare Lista Vizualizarea tuturor canalelor pentru toate activările intermediare Harta caracteristicilor are forma ( , dimensiune, dimensiune, n features) Număr de caracteristici layer names = [] Extrageți numele straturilor din harta caracteristicilor pentru stratul din model straturi[: ]: pentru afișare layer names append(layer name) în figură Ciclul de afișare a hărții caracteristice imagini per rând = pentru layer name, layer activation în zip(layer names, activations): ◄ n features = layer activation shape[-l] ◄ dimensiune = layer activation shape[l] n cols = n features // imagini per rând Cantitate coloane din matricea de afișare a canalului display grid = np zeros((dimensiune * n cols, images per row * size)) pentru col în interval (n cols): pentru rândul din interval (imagini per rând): channel image = layer activation[ , Afișarea fiecărui filtru într-o grilă orizontală mare imagine canal imaginea canalului imaginea canalului imaginea canalului += col*imagini pe rând+rând] -= channel image mean() ◄ Post-procesare /= channel image std() *= caracteristică pentru a obține o vizualizare acceptabilă channel image = np clip(channel image, , ) astype('uint ') display grid[col * size: (col + ) * size, ◄ - Ieșire grilă rând * dimensiune : (rând + ) * dimensiune] = imagine canal scara = /dimensiune plt figure(figsize=(scale * display grid shape[l], scară * display grid shape[ ])) plt title(nume strat) plt grid(Fals) plt imshow(display grid, aspect='auto', cmap='viridis') Iată câteva comentarii la rezultate: □ Primul strat acționează ca o colecție de detectoare de margini diferite În această etapă, activarea păstrează aproape toate informațiile care sunt prezente în imaginea originală Capitolul Învățare profundă în tehnologiile computerizate Orez Toate canalele tuturor activărilor de strat pentru imaginea de testare a pisicii Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională □ Pe măsură ce treci în sus, activările devin mai abstracte, iar interpretarea lor vizuală din ce în ce mai complexă Încep să codifice concepte de nivel înalt precum "urechea pisicii" sau "ochiul pisicii" Reprezentările la nivel înalt transportă din ce în ce mai puține informații despre imaginea originală și din ce în ce mai multe despre clasa de imagine □ Raritatea activărilor crește odată cu adâncimea stratului: în primul strat, toate filtrele sunt activate de imaginea originală, dar în straturile ulterioare rămân tot mai multe filtre goale Aceasta înseamnă că modelul care se potrivește cu filtrul nu se găsește în imaginea originală Tocmai ne-am uitat la o caracteristică universală importantă a reprezentărilor produse de rețelele neuronale profunde: caracteristicile extrase de straturi devin din ce în ce mai abstracte odată cu adâncimea stratului Activările din straturile superioare conțin din ce în ce mai puține informații despre o anumită imagine de intrare și din ce în ce mai multe despre țintă (în acest caz, clasa imaginii, o pisică sau un câine) O rețea neuronală profundă acționează de fapt ca o conductă de curățare a informațiilor care preia date brute (în acest caz, imagini RGB) și suferă mai multe transformări, eliminând informațiile inutile (de exemplu, aspectul specific al imaginii) și lăsând și curățând necesare (de exemplu, clasa Imagini) Aproximativ în același mod în care oamenii și animalele percep lumea din jurul lor: după ce a observat o scenă timp de câteva secunde, o persoană își amintește ce obiecte abstracte sunt prezente în ea (o bicicletă, un copac), dar nu își amintește toate detaliile aspectului aceste obiecte De fapt, dacă încercați să desenați o bicicletă din memorie, cel mai probabil nu veți reuși să obțineți o imagine mai mult sau mai puțin corectă, chiar dacă este posibil să fi văzut biciclete de mii de ori (vezi exemplele din Figura ) Încercați să o faceți chiar acum și veți fi convins de adevărul celor spuse Creierul tău a învățat să abstragă complet input-ul vizual pe care îl primește și să le transforme în concepte vizuale de nivel înalt, eliminând în același timp detaliile vizuale neimportante și făcându-le mai greu de reținut Orez Stânga: încearcă să deseneze o bicicletă din memorie În dreapta, așa ar trebui să arate un desen schematic al unei biciclete Capitolul Învățare profundă în tehnologiile computerizate Vizualizarea filtrelor rețelei neuronale convoluționale O altă modalitate ușoară de a explora filtrele primite de rețea este afișarea unui șablon vizual de care este responsabil fiecare filtru Acest lucru se poate face folosind metoda de ascensiune a gradientului în spațiul de intrare: prin efectuarea coborârii gradientului la valoarea imaginii de intrare a unei rețele neuronale convoluționale, maximizând răspunsul unui anumit filtru, începând cu o imagine goală Rezultatul este o versiune a imaginii de intrare pentru care răspunsul acestui filtru ar fi maxim Problema este simplă: construiți o funcție de pierdere care maximizează valoarea unui anumit filtru al unui anumit strat convoluțional și apoi utilizați coborârea gradientului stocastic pentru a ajusta valorile imaginii de intrare pentru a maximiza valoarea de activare De exemplu, să determinăm pierderea pentru activarea filtrului în nivelul noc conv al rețelei VGG , antrenat anterior pe setul ImageNet Lista Definirea tensorului de pierdere pentru randarea filtrului din keras import de aplicații VGG de la Keras import backend as model = VGG (weights='imagenet', include top=Fals) layer name='block convl' index filtru = layer output = model get layer(layer name) output loss = K mean(layer output[:, :, :, filter index]) Pentru a implementa coborârea gradientului, trebuie să obțineți gradientul de pierdere în raport cu intrarea modelului Pentru a face acest lucru, puteți utiliza funcția gradienți din modulul backend al cadrului Keras Lista Obținerea gradientului de pierdere în raport cu intrarea modelului grads = K gradienti(model de pierdere input)[ ] - >> plt imshow(generate pattern('block convl', )) Se pare că filtrul de la indexul din stratul block convl este responsabil pentru modelul cu buline Și acum partea distractivă: putem reda toate filtrele pe toate straturile Pentru simplitate, luați în considerare doar primele de filtre dintr-un strat și numai primele straturi din fiecare bloc de convoluție (blockl convl, block convl, block convl, block convl, block convl) Aranjați imaginile șablon rezultate Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională Filtre de x într-o grilă de x prin adăugarea de mici margini negre între modele (fig - ) Orez Modelul la care filtrul nul de la nivelul NOSCH conv dă răspunsul maxim Lista Crearea unei grile cu toate modelele de răspuns la filtru într-un strat layer name = 'blockl convl' dimensiune= marja= Imagine goală (fundal negru) pentru a salva rezultatele rezultate = np zeros(( * dimensiune + * margine, * dimensiune + * margine, )) ◄ - pentru i în intervalul ( ): ◄ - Iterează peste rândurile grilei cu rezultate pentru j în intervalul ( ): ◄ - Iterați peste coloanele de grilă cu rezultate ► filter img = generate pattern(nume strat, i + (j * ), dimensiune = dimensiune) horizontal start = i * size + i * margin horizontal end = horizontal start + dimensiune vertical start = j * dimensiune + j * margin vertical end = vertical start + dimensiune rezultate[horizontal start: horizontal end, vertical start: vertical end, :] = filter img plt figure(figsize=( , )) plt imshow(rezultate) Afișare grilă Rescrierea șablonului într-un pătrat (i, j) în interiorul grilei de rezultate Generarea șablonului pentru filtrul i + (j * ) în stratul numit layer name Capitolul • Deep Learning in Computer Vision Technologies Orez Filtrați șabloanele din stratul blockl convl Orez Filtrați șabloanele din stratul Losk conv Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională Orez Filtrați șabloanele din stratul Liosk conv Orez Filtrați șabloanele din stratul Losk conv Capitolul • Deep Learning in Computer Vision Aceste reprezentări vizuale ale filtrelor pot spune multe despre modul în care straturile unei rețele neuronale convoluționale văd lumea: fiecare strat din rețea își antrenează colecția de filtre, astfel încât intrările lor să poată fi exprimate ca o combinație de filtre Aceasta este similară cu transformata Fourier, care descompune semnalul într-un pachet de funcții co-sinus Filtrele din astfel de pachete de filtre de rețele neuronale convoluționale devin mai complexe pe măsură ce stratul din model crește: □ filtrele din primul strat din model (blockl convl) codifică contururi și culori simple direcționale (sau, în unele cazuri, contururi colorate); □ filtrele din block convl codifică texturi simple constând din combinații de căi și culori; □ filtrele din straturi superioare încep să semene cu texturile găsite în imaginile naturale - pene, ochi, frunze etc Vizualizarea hărților de căldură de activare a clasei Această secțiune descrie o altă tehnică de vizualizare care vă permite să înțelegeți ce părți ale unei imagini date au ajutat rețeaua neuronală convoluțională să ia decizia finală cu privire la clasificarea acesteia Acest lucru este util pentru depanarea procesului de luare a deciziilor într-o rețea neuronală convoluțională, în special în cazul erorilor de clasificare De asemenea, ajută la localizarea anumitor obiecte într-o imagine Categoria metodelor descrise aici se numește Vizualizarea hărții de activare a clasei (CAM) Esența lor este de a crea hărți de căldură de activare a clasei pentru imaginile de intrare O hartă termică de activare a clasei este o grilă D de scoruri asociată cu o anumită clasă de ieșire și calculată pentru fiecare locație din orice imagine de intrare Aceste scoruri determină cât de importantă este fiecare locație pentru clasa în cauză De exemplu, pentru o imagine alimentată într-o rețea neuronală convoluțională care clasifică pisicile și câinii, vizualizarea CAM generează hărți termice pentru clasele de pisici și câini care arată cât de importante sunt diferitele părți ale imaginii pentru acele clase În plus, vom folosi implementarea descrisă în articolul "Grad-CAM: explicații vizuale din rețelele profunde prin localizare bazată pe gradient" Este foarte simplu: afișați harta caracteristicilor pentru imaginea de intrare, obținută ca rezultat al stratului convoluțional și ponderați fiecare canal din acesta cu gradientul de clasă pentru canalul respectiv Mai simplu spus, acest truc este să ponderezi caracteristicile din harta spațială "cât de intens activează imaginea de intrare diferite canale" prin caracteristica "cât de important este fiecare canal pentru o anumită clasă" Rezultatul este o hartă a caracteristicilor spațiale despre "cât de intens activează clasa de imagine de intrare" Ramprasaath R Selvaraju et al , arXiv ( ), https://arxw org/abs/ Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională Să demonstrăm acest truc folosind o rețea VGG preantrenată Lista Se încarcă o rețea VGG preantrenată Vă rugăm să rețineți că noi din keras import applications vggl VGG a adăugat un clasificator complet conectat deasupra; în toate modelele precedente = VGG (weights= 'imageet') ◄ cazurile l-am aruncat Luați în considerare fotografia a doi elefanți africani din fig (utilizat sub o licență Creative Commons) care arată o femelă și vițelul ei mergând prin savană Să transformăm această fotografie într-o formă pe care modelul VGG o poate citi Modelul este antrenat pe imagini x preprocesate conform regulilor implementate ca funcția keras applications vggl preprocess input, deci trebuie să reducem fotografia la x , să o convertim într-un tensor Numpy cu numere float și să aplicăm regulile de preprocesare Orez Fotografie de test cu elefanți africani Lista Preprocesarea imaginii de intrare pentru transmiterea către rețeaua VGG Imaginea z în format Python Imaging Library (PIL) Cale locală către imaginea țintă din keras preprocessing import imagine din keras applications vggl import preprocess input, decode predictions import numpy ca np img path = '/Users/fchollet/Downloads/creative commons elephant jpg' ► img = image load img(img path, target size=( , )) Continuare Capitolul • Deep Learning in Computer Vision Lista (continuare) x = imagine img to array(img) x = np expand dims(x, axa= ) x = preprocess input(x) ◄- Matrice Numpy de numere float de forma ( , , ) Adăugarea unei dimensiuni pentru a converti o matrice într-un lot cu formă ( , , , ) Preprocesarea pachetelor (normalizarea canalelor de culoare) Acum putem trece imaginea în rețeaua pregătită și decoda vectorul rezultat într-un format care poate fi citit de om: >>> preds = model predict(x) >>> print('Previzat:', decode predictions(preds, top= )[ ]) Prevăzut:', [(u'P ', u'African elephant', , ), (u'P ', u'tusker', , ), (u'P ', u'Indian elephant', , )] Iată primele trei clase prezise pentru o imagine dată: □ elefant african (cu o probabilitate de , %); □ mistreț (cu o probabilitate de %); □ Elefant indian (cu o probabilitate de , %) Rețeaua a recunoscut un număr nespecificat de elefanți africani din imagine Elementul din vectorul de prognoze cu activarea maximă corespunde clasei "elefant african" (elefant african) cu indice : >>> np argmax(preds[ ]) Pentru a vizualiza partea din imagine care corespunde cel mai bine cu clasa elefantului african, vom efectua procedura Grad-CAM Lista Implementarea algoritmului Grad-CAM Element elefant african în vectorul de prognoză -► african e ephant output = model output[:, ] Harta caracteristicilor de ieșire a stratului Losk conv , ultimul strat convoluțional din rețeaua VGG last conv layer = model get layer('b conv conv ') ◄ Un vector cu forma ( ,), al cărui element determină intensitatea gradientului pentru un canal dat din harta caracteristicilor Gradient de elefant african pentru harta caracteristicilor de ieșire a stratului Losk conpZ > grads = K gradients(african elephant output, last conv layer output)[ ] pooled grads = K mean(grads, axis=( , , )) Vizualizarea cunoștințelor conținute într-o rețea neuronală convoluțională iterare = K function([model input], [pooled grads, Iast conv layer output[ ]]) [-►pooled grads value, conv layer output value = iterare([x]) pentru i în interval ( ): conv layer output value[: i] *= valoarea gradurilor grupate[i] axa=-l) ◄- heatmap = np mean(conv layer output value Media pentru canale din harta caracteristicilor rezultată este harta termică de activare a clasei Valorile acestor două cantități ca matrice Numpy pentru o imagine eșantion dată a doi elefanți Vă permite să accesați valorile valorilor tocmai definite: pooled grads și harta caracteristicilor de ieșire a stratului Losk conv pentru o anumită imagine Înmulțește fiecare canal din harta caracteristicilor cu "importanța acestui canal" pentru clasa "elefant" Pentru nevoile de vizualizare, normalizăm harta termică, aducând valorile din ea în intervalul de la la Rezultatul este prezentat în fig Lista Procesarea finală a hărții termice heatmap = np maximum(heatmap, ) heatmap /= np max(heatmap) plt matshow(heatmap) Orez Harta termică de activare a clasei "elefantul african" pentru imaginea de testare În cele din urmă, folosim biblioteca OpenCV pentru a obține o fotografie a elefanților cu o hartă termică suprapusă (Figura ) Capitolul Învățare profundă în tehnologiile computerizate Lista Suprapunerea unei hărți termice pe imaginea originală import cv img = cv imread(img path) ◄ - Încărcarea originalului Redimensionarea imaginii termice a hărții conform folosind cv cu dimensiunile originalului fotografii heatmap = cv resize(heatmapj (img shape[l], img shape[ ])) heatmap = np uint ( * heatmap) ◄ - Converti heatmap în format RGB -►heatmap = cv arriyCo ogMar(Iteaitard cv COLORMAP ET) suprapused img = heatmap * , + img , este factorul de intensitate al hărții termice сѵ imwrite('/Users/fchollet/Downloads/elephant cam jpg', supraimposed img) Rețineți că rezultatele dvs pot diferi ușor de cele prezentate, deoarece cu o cantitate atât de mică de date de antrenament, rezultatele depind foarte mult de exact care de eșantioane intră în setul de antrenament atunci când sunt selectate aleatoriu Dacă obțineți un rezultat mai rău decât noi, încercați să selectați un alt set de de mostre aleatorii de dragul experimentului (în viața reală nu veți avea o astfel de oportunitate) Același model poate fi antrenat fără a încărca reprezentări vectoriale de cuvinte preantrenate și fără a îngheța stratul de încorporare În acest caz, se va antrena o reprezentare foarte specializată pentru setul de jetoane de intrare În această situație, de obicei obțineți o reprezentare mai puternică decât cea preantrenată dacă aveți o cantitate mare de date de antrenament Dar în cazul nostru, există doar de mostre de antrenament Cu toate acestea, să încercăm acest lucru (Figurile și ) Lista Antrenarea aceluiași model fără a utiliza deja instruit reprezentări vectoriale din keras models import Sequential din keras layers import Embedding, Flatten, Dense model = Sequential() model add(Incorporare(max words, embedding dim, input length=maxlen)) model add(Aplatizare()) model add(Dense( , activation='relu')) model add(Dense(l, activation='sigmoid')) model summary() model compile(optimizer='rmsprop', loss='binary crossentropy', metrics=[' acc ' ]) istoric = model fit(x train, y train, epoci= , dimensiune loturi= , date validare=(x val, y val)) Lucrul cu date text Orez Pierderi în etapele de instruire și validare fără a utiliza reprezentări vectoriale de cuvinte deja antrenate Orez Precizie în timpul fazelor de instruire și validare fără a utiliza reprezentări vectoriale de cuvinte deja antrenate Precizia în etapa de verificare a înghețat la un nivel apropiat de %> Adică, în acest caz, reprezentările vectoriale pre-antrenate ale cuvintelor le depășesc pe cele nou antrenate Dacă creșteți numărul de mostre de antrenament, situația se va inversa rapid - încercați de dragul experimentului În final, evaluăm modelul pe eșantionul de control În primul rând, tokenizăm datele de control Lista Tokenizarea datelor din proba de control test dir = os path join(imdb dir\ 'test') etichete = [] texte = [] pentru label type în ['neg', 'pos']: Continuare & Capitolul Învățare profundă pentru text și secvențe Lista (continuare) dir name = os path join(test dirJ tip etichetă) pentru fname în sortat(os listdir(dir name)): dacă fname[- :] == ' txt': f = open(os path join(dir namej fname)) texts append(f read()) f close() dacă label type == "neg": labels append( ) altceva: etichete anexează(l) secvențe = tokenizer texts to sequences(texte) x test = pad sequences(secvențej maxlen=maxlen) y test = np asarray(labels) Și apoi vom încărca și vom evalua primul model Lista Evaluarea modelului pe setul de date de control model load weights('pre trained glove model h ') model evaluate(x testj y test) Avem o precizie deprimant de scăzută de %> Este greu să obții rezultate bune cu doar câteva mostre de antrenament! Rezumând Acum poti: □ transforma textul în ceva ce poate fi transmis unei rețele neuronale; □ utilizați stratul Embedding în modelul Keras pentru a antrena reprezentări vectoriale specializate ale jetoanelor; □ Utilizați reprezentări vectoriale de cuvinte pre-antrenate pentru valoare adăugată în sarcini mici de procesare a limbajului natural Rețele neuronale recurente Principala caracteristică a tuturor rețelelor neuronale pe care le-am întâlnit până acum, cum ar fi rețelele neuronale complet conectate și convoluționale, este lipsa memoriei Fiecare intrare este procesată de ei în mod independent, fără a fi salvată nicio stare între ele Pentru a procesa o secvență sau o serie temporală de date folosind astfel de rețele, este necesar să se transfere întreaga secvență în rețea, transformând-o într-un singur pachet Este exact ceea ce am făcut în exemplul anterior: am convertit toate recenziile de la IMDB într-un vector mare și l-am procesat în întregime Astfel de rețele sunt numite rețele feedforward Rețele neuronale recurente > Ieșire RNN recurent comunicare Conectare Orez Rețea recurentă - o rețea cu un ciclu Pe de altă parte, când citim o propoziție, o înțelegem cuvânt cu cuvânt, sărind repede ochii de la unul la altul și amintindu-ne de cele precedente; aceasta ne permite să pătrundem treptat în sensul pe care îl transmite propoziţia Inteligența biologică percepe informația secvenţial, păstrând un model intern a ceea ce este procesat, pe baza informațiilor anterioare și completând în mod constant acest model pe măsură ce sosesc informații noi Rețeaua neuronală recurentă (RNN) folosește același principiu, deși într-o formă extrem de simplificată: prelucrează o secvență prin iterarea elementelor sale și stocarea stării obținute prin prelucrarea elementelor anterioare De fapt, un RNN este un tip de rețea neuronală care are o buclă interioară (Figura ) RNN resetează starea între procesarea a două secvențe diferite, independente (cum ar fi două răspunsuri IMDB diferite), astfel încât o secvență este încă interpretată ca un singur bloc de date: un singur pachet de intrare Cu toate acestea, acum blocul de date nu este procesat într-un singur pas; rețeaua realizează o buclă internă, iterând pe o secvență de elemente Pentru a clarifica conceptele de "buclă" și "stare", să folosim Numpy pentru a implementa un RNN simplu feed-forward Va lua ca intrare o succesiune de vectori sub forma unui tensor bidimensional cu forma (time intervals, input features), itera pe intervalele de timp și, având în vedere starea curentă și caracteristicile de intrare (cu forma (input features,)) la momentul t, construiți un rezultat de ieșire corespunzător momentului t Acest rezultat va fi apoi stocat intern în pregătirea pentru următoarea iterație Pentru primul interval de timp, ieșirea anterioară este nedefinită; în acest moment, rețeaua nu are nicio stare curentă Prin urmare, starea curentă este inițial inițializată cu un vector cu valori zero ale elementului, care se numește starea inițială a rețelei Mai jos este o implementare a acestui RNN în pseudocod Lista Implementarea RNN în pseudocod starea t = ◄ Starea la momentul t pentru intrarea t în secvența de intrare: ◄ - Buclă printr-o secvență de elemente output t = f(input tj state t) s :a :e t = output t ◄ I valoarea anterioară de ieșire devine Am starea curentă pentru următoarea iterație Funcția f poate fi și mai specifică: transformă datele de intrare și starea într-un rezultat de ieșire și este parametrizată de două matrice, W și U, și un vector offset Seamănă cu un strat complet conectat într-o rețea feed-forward Capitolul Învățare profundă pentru text și secvențe Lista Implementare RNN mai detaliată în pseudocod stare t = pentru input t în input sequence: output t = activare(punct(Wj input t) + dot^U, state t) + b) state t = output t Pentru a face aceste concepte absolut lipsite de ambiguitate, vom scrie o implementare simplificată a rețelei RNN bazată pe Numpy Lista Implementarea RNN bazată pe Numpy Stare inițială: vector cu valori nule ale elementului Intrare: aleatoriu import numpy ca pr zgomot pentru simplitate de exemplu pași de timp = ◄ - Numărul de pași de timp din secvența de intrare caracteristici de intrare = ◄ - Dimensiunea spațiului caracteristicilor de intrare output features = ◄ Dimensiunea spațiului caracteristicilor de ieșire intrări = np random random((timestepsj input features)) L►state t = np zeros((output featuresj)) W = np random random((funcție ieșireSj caracteristici intrare)) U = np random random((output featureSj output features)) b = np random random((output featureSj)) Crearea de matrici cu ponderi aleatorii succesive outputs = [] pentru inputt în intrări: ◄ input t - vector cu formă (input features,) output t = np tanh(np dot(Wj input t) + np dot(Uj state t) + b) succesive outputs append(output t) ■ >> din keras models import Sequential >>> din keras layers import Embedding, SimpleRNN >>> model = Sequential() >>> model add(Incorporare( , )) >>> model add(SimpleRNN( )) >>> model rezumatO Strat (tip) Formă de ieșire Param # embedding (Încorporare) (Niciunul, Nici unul, ) simplernn (SimpleRNN) (Niciunul, ) Total parametri: : Parametri antrenabili: Parametri neantrenați: Următorul exemplu returnează secvența completă de stări: >>> model = Sequential() >>> model add(Incorporare( , )) >>> model add(SimpleRNN( , return sequences=True)) >>> model rezumatO Strat (tip) Formă de ieșire Param # embedding (Încorporare) (Niciuna, Niciuna, ) simplernn ll (SimpleRNN) (Niciunul, Nici unul, ) Total parametri: : Parametri antrenabili: Parametri neantrenați: Uneori este util să suprapuneți mai multe straturi recurente pentru a crește reprezentativitatea rețelei În astfel de situații, toate straturile intermediare trebuie să returneze secvențe complete de rezultate: >>> model = Sequential() >>> model add(Incorporare( , )) >>> model add(SimpleRNN( , return sequences=True)) >>> model add(SimpleRNN( , return sequences=True)) >>> model add(SimpleRNN( , return sequences=True)) >>> model add(SimpleRNN( )) ◄ - Ultimul strat returnează doar ultimul rezultat Rețele neuronale recurente >>>model summary() Strat (tip) Formă de ieșire Param # embedding (Încorporare) (Niciunul, Nici unul, ) simplernn (SimpleRNN) (Niciunul, Nici unul, ) simplernn (SimpleRNN) (Niciunul, Nici unul, ) simplernn (SimpleRNN) (Niciunul, Nici unul, ) simplernn (SimpleRNN) (Niciunul, ) Total parametri: : Parametri antrenabili: Parametri neantrenați: maxlen = batch size = Acum să încercăm să aplicăm același model la problema clasificării recenziilor de filme din setul de date IMDB Să pregătim mai întâi datele Lista Pregătirea datelor IMDB din keras datasets import imdb din keras secvență de import preprocesare Număr de cuvinte luate în considerare ca semne max features = ◄ - Decupați textul după acest număr de cuvinte (printre max features cele mai comune cuvinte) print('Se încarcă datele ') (input train, y train), (input test, y test) = imdb load data( num words=max features) print(len(input train), 'tren secvenţe') print(len(input train), 'test secvenţe') print('Secvențe de pad (eșantioane x timp)') input train = sequence pad sequences(input train, maxlen=maxlen) input test = sequence pad sequences(input test, maxlen=maxlen) print('input train shape:', input train shape) print( "input test shape:", input test shape) Să antrenăm o rețea recurentă simplă constând din straturi Embedding și SimpleRNN Lista Antrenamentul modelului cu straturi Embedding și SimpleRNN din keras models import Sequential din keras layers import Embedding, SimpleRNN, Dense model = SequentialQ model add(Incorporare(max features, )) model add(SimpleRNN( )) Continuare & Capitolul Învățare profundă pentru text și secvențe Lista (continuare) model add(Dense(l, activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentropy', metrics=['acc ' ]) istoric = model fit(input train, y train, epochs= , batch size= , validation split= , ) Acum vom afișa grafice ale schimbărilor în magnitudinea pierderilor și acuratețea modelului în etapele de pregătire și verificare (Fig și ) Lista Ieșirea rezultatelor import matplotlib pyplot ca plt acc = istorie istorief'acc'] val acc = history historyf'val acc'] loss = history historyf'pierdere ' ] val loss = history historyf'val loss'] epoci = interval(l, len(acc) + ) plt plot(epochs, acc, 'bo', label='Training acc') plt plot(epochs, val acc, 'b', label='Validare acc') plt title('Acuratețea instruirii și a validării') plt legend() plt figure() plt plot(epochs, loss, 'bo', label='Training loss') plt plot(epochs, val loss, 'b', label='Validation loss') plt title('Pierderi de formare și validare') plt legend() plt show() Orez Pierdere de instruire și validare pentru modelul de analiză IMDB cu stratul SimpleRNN Rețele neuronale recurente Orez Precizie de instruire și validare pentru un model de analiză IMDB cu un strat SimpleRNN Reamintim că prima soluție simplificată la această problemă din Capitolul a arătat o acuratețe de % asupra datelor de control Din păcate, această mică rețea recurentă nu a putut atinge același nivel (prezentând doar % acuratețe în timpul fazei de verificare) O parte a problemei este că doar primele de cuvinte din fiecare revizuire sunt analizate, mai degrabă decât întreaga secvență, astfel încât RNN primește mai puține intrări decât modelul cu care îl comparăm Un alt motiv este că stratul SimpleRNN nu este potrivit pentru procesarea secvențelor lungi, cum ar fi textul Alte tipuri de straturi recurente pot obține rezultate mai bune Luați în considerare câteva dintre aceste straturi mai avansate Straturi LSTM și GRU SimpleRNN nu este singurul strat recurent disponibil în Keras Pe lângă acesta, există și straturi LSTM și GRU În soluțiile practice, acestea sunt folosite mai des, deoarece SimpleRNN este prea simplu pentru problemele din lumea reală SimpleRNN suferă de o problemă semnificativă: teoretic, la fiecare moment t, ar trebui să stocheze informații despre datele de intrare pentru multe intervale de timp anterioare, dar în practică astfel de dependențe extinse nu sunt susceptibile de învățare Acest lucru se datorează problemei degradarii gradientului, similar efectului observat în rețelele nerecurente (rețele feedforward) cu un număr mare de straturi: pe măsură ce numărul de straturi crește, rețeaua devine în cele din urmă imposibil de antrenat Justificarea teoretică a acestui efect a fost dată de Hochreiter, Schmidhuber și Bengio la începutul anilor Straturile LSTM și GRU au fost create special pentru a rezolva această problemă A se vedea, de exemplu: Yoshua Bengio, Patrice Simard și Paolo Frasconi, "Learning Long-Term Dependencies with Gradient Descent Is Difficult", IEEE Transactions on Neural Networks , nr ( ) Capitolul Învățare profundă pentru text și secvențe Luați în considerare un strat LSTM Algoritmul LSTM de memorie pe termen scurt lung a fost dezvoltat de Hochreiter și Schmidhuber în ; a fost punctul culminant al cercetării lor asupra problemei degradarii gradientului Acest strat este o variantă a stratului SimpleRNN cu care ești deja familiarizat; adaugă suport pentru transferul de informații pe mai multe intervale de timp Imaginați-vă o bandă transportoare care se mișcă paralel cu o secvență în curs de procesare Informațiile din secvență pot fi transferate pe bandă transportoare în orice moment, transferate la intervale de timp ulterioare și îndepărtate de pe bandă dacă este necesar Aceasta este esența stratului LSTM: stochează informații pentru utilizare ulterioară, prevenind astfel dispariția semnalelor vechi în timpul procesării Pentru a înțelege mai în detaliu, să începem cu celula SimpleRNN (Figura ) Deoarece avem un număr mare de matrici de pondere, vom nota matricele de ieșire W și U în celula cu indicele o (Wo și Do) - din engleză, output (ieșire, la ieșire) rezultat la momentul t- rezultat la momentul t rezultat la momentul t+ intrare la momentul t- intrare la ora t intrare la momentul t+ Orez Punctul de pornire al stratului LSTM: stratul SimpleRNN Să adăugăm un flux de date suplimentar la această schemă care transportă informații prin intervale de timp Pentru valorile sale în diferite intervale de timp, vom folosi denumirea Ct, unde C este din engleză, sapu (transferat) Aceste informații vor avea următorul efect asupra celulei: combinate cu legăturile de intrare și recurente (prin transformare densă: produs punctual pe matricea de greutate cu adăugarea unei părtiniri și aplicarea funcției de activare) și afectează starea transmisă în timpul următor interval (prin funcția de activare și operația de înmulțire) Din punct de vedere conceptual, fluxul de transfer de informații modulează următorul rezultat și următoarea stare (Figura ) Până acum, totul este destul de simplu Sepp Hochreiter și Jiirgen Schmidhuber, "Long Short-Term Memory", Neural Computation , nr ( ) Rețele neuronale recurente rezultat la momentul t- rezultat la momentul t rezultat la momentul t+ intrare la momentul t- intrare la momentul t intrare la momentul t+ Orez Trecerea de la SimpleRNN la LSTM: Adăugarea unui flux Carrier Acum, pentru detalii despre cum se calculează următoarea valoare în fluxul de date purtător: se bazează pe trei transformări diferite, toate trei sunt sub forma unei celule SimpleRNN: y = activare(punct(state tj U) + dot(input tj W) + b) Aceste transformări au însă propriile lor matrice de greutate, pe care le vom nota prin indicii i, f și k Iată ce avem (acest lucru poate părea nerezonabil, dar aveți răbdare, voi explica totul mai târziu) Lista Implementarea arhitecturii LSTM în pseudocod ( / ) output t = activare(punct(state tj Uo) + dot(input tj Wo) + dot(C tj Vo) + bo) i t = activare(punct(state tj f t = activare(dot(state tj k t = activare(dot(state tj) Ui) + punct(input tj Wi) + bi) Uf) + punct(input tj Wf) + bf) Uk) + punct(input tj Wk) + bk) Să obținem o nouă stare portabilă (denumită în continuare c t) combinând i t, f t și k t Lista Implementarea arhitecturii LSTM în pseudocod ( / ) c t+l = i t * k t + c t * f t Să adăugăm asta la imaginea de ansamblu, așa cum se arată în Fig Asta e tot Nu este deloc dificil, doar puțin complicat Dacă vrei să atingi filozofia, gândește-te la ce face fiecare dintre aceste operațiuni De exemplu, puteți spune că înmulțirea c t cu f t este o modalitate de a uita în mod deliberat informațiile inutile din fluxul de date purtător Și înmulțirea i t cu k t reprezintă informații despre prezent, adăugând informații noi fluxului purtător Dar în cele din urmă aceste interpretări nu Capitolul Învățare profundă pentru text și secvențe de mare importanță, deoarece acțiunea propriu-zisă a operațiilor este determinată de conținutul greutăților care le parametriză, iar ponderile se calculează continuu și din nou în fiecare ciclu de învățare, ceea ce face imposibilă atribuirea unui scop specific uneia sau alteia operațiuni Specificația celulei RNN (așa cum tocmai a fost descrisă) definește spațiul ipotezei dvs - spațiul în care veți căuta setările optime ale modelului în timpul antrenamentului, totuși nu definește exact ce face celula - depinde de greutățile din celulă Aceeași celulă cu greutăți diferite poate acționa destul de diferit Prin urmare, setul de operațiuni care alcătuiesc o celulă RNN este mai bine gândit ca un set de constrângeri în căutarea dvs , mai degrabă decât ca un proiect în sens ingineresc rezultat la momentul t- rezultat la momentul t rezultat la momentul t+ intrare la momentul t- intrare la momentul t intrare la momentul t+ Orez Anatomia unui LSTM Din punctul de vedere al cercetătorului, alegerea unor astfel de restricții - caracteristicile de implementare ale celulelor RNN - este mai bine lăsată pe seama algoritmilor de optimizare (cum ar fi algoritmii de învățare prin întărire generalizată) și salvarea inginerilor umani de aceasta În viitor, așa vom construi rețele Pe scurt, nu vi se cere să înțelegeți arhitectura particulară a unei celule LSTM; nu este treaba ta ca persoană Amintiți-vă doar scopul celulei LSTM: de a permite reintroducerea informațiilor din trecut în procesul de învățare și de a rezista problemei degradarii gradientului Un exemplu de utilizare a unui strat LSTM de la Keras Acum să trecem de la teorie la practică: vom crea un model cu un strat LSTM și îl vom antrena pe datele IMDB (Fig și ) Noua rețea este similară cu cea anterioară, cu un strat SimpleRNN Am specificat doar dimensiunea rezultatului stratului LSTM, lăsând celelalte argumente (și sunt destul de multe) cu valori implicite Valorile implicite din Keras sunt foarte bine alese și potrivite pentru majoritatea situațiilor, ceea ce ne scutește de a trebui să petrecem timp configurând manual parametrii Rețele neuronale recurente Lista Folosind un strat LSTM de la Keras din keras layers import LSTM model = Sequential() model add(Incorporare(max featuresJ )) model add(LSTM( )) model add(Dense(lj activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentropy', metrics=[' acc ' ]) istoric = model fit(input trainj y train, epochs= j batch size= j validation split= , ) Orez Pierdere de instruire și validare pentru modelul de analiză IMDB cu strat LSTM Orez Precizia de instruire și validare pentru modelul de analiză IMDB cu strat LSTM Capitolul • Învățare profundă pentru text și secvențe De data aceasta am obținut o precizie de % în faza de verificare Nu este un rezultat rău: mult mai bun decât cu rețeaua de strat SimpleRNN, care se datorează în mare parte faptului că LSTM este mai puțin susceptibil la problema degradarii gradientului - și puțin mai bine decât utilizarea soluției complet conectate din capitolul , chiar dacă în acest exemplu volumul de antrenament au fost mai puține date decât în capitolul Aici limităm secvențele la de cuvinte, în timp ce în capitolul secvențele complete au participat la antrenament Cu toate acestea, acest rezultat nu este impresionant pentru o abordare atât de intensivă din punct de vedere computațional De ce soluția bazată pe LSTM nu a obținut un rezultat mai bun? Un motiv este că nici măcar nu am încercat să reglam hiperparametri, cum ar fi dimensiunea reprezentărilor vectoriale sau dimensiunea rezultatului returnat de stratul LSTM Un alt motiv ar putea fi lipsa regularizării Cu toate acestea, pentru a fi sincer, principalul motiv este că analiza structurii globale extinse a recenziilor (de care LSTM face o treabă excelentă) nu ajută la rezolvarea problemei determinării colorării emoționale Astfel de sarcini simple sunt bine rezolvate prin determinarea frecvenței cuvintelor care apar în recenzii Pe aceasta s-a bazat prima soluție complet conectată Cu toate acestea, există și alte sarcini de procesare a limbajului natural, mult mai complexe, în care puterea LSTM-urilor este mai evidentă: de exemplu, în sistemele conversaționale de întrebări/răspuns și în traducerea automată Rezumând Acum știi: □ ce sunt rețelele neuronale recurente (RNN) și cum funcționează; □ ce este LSTM și de ce pe secvențele lungi această abordare dă rezultate mai bune decât o soluție simplă bazată pe RNN; □ cum să utilizați straturile RNN în Keras pentru a procesa date seriale În continuare, vom analiza câteva caracteristici avansate ale rețelelor recurente pentru a vă ajuta să profitați la maximum de modelele de învățare profundă secvențială Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente În această secțiune, vom analiza trei tehnici avansate pentru îmbunătățirea calității și generalizării rețelelor neuronale recurente Până la sfârșitul acestei secțiuni, veți ști majoritatea a ceea ce trebuie să știți despre utilizarea rețelelor recurente în Keras Vom demonstra toate cele trei idei folosind exemplul de rezolvare a problemei prognozării temperaturii pentru ziua următoare, pe baza variațiilor de timp Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente secvența de date care provin de la senzorii de pe acoperișul unei clădiri, cum ar fi temperatura, presiunea barometrică și umiditatea Aceasta este o sarcină destul de dificilă, ilustrând multe dintre complexitățile care apar atunci când lucrați cu secvențe de timp Ne vom uita la următoarele abordări: □ decimare recurentă - o modalitate specială încorporată de a utiliza decimarea pentru a combate supraadaptarea în straturile recurente; □ suprapunerea straturilor recurente - o modalitate de a crește reprezentativitatea rețelei (prin creșterea cantității de calcul); □ Straturi recurente bidirecționale - Reprezintă aceeași informație într-o rețea recurentă în moduri diferite, îmbunătățind acuratețea și reducând problemele de uitare Problemă de predicție a temperaturii Până acum, ne-am uitat la singurul tip de date seriale - datele text, cum ar fi în seturile de date IMDB și Reuters Cu toate acestea, datele seriale pot fi găsite în multe alte domenii, nu numai în procesarea limbajului natural Toate exemplele din această secțiune vor folosi secvențe de timp ale datelor meteorologice înregistrate la stația hidrometeorologică de la Institutul de Biogeochimie Max Planck din Jena, Germania Acest set de date include măsurători a caracteristici diferite (cum ar fi temperatura, presiunea barometrică, umiditatea, direcția vântului etc ) efectuate la fiecare minute timp de câțiva ani În general, colectarea datelor a fost începută în , dar în acest exemplu sunt incluse doar datele pentru perioada - Acest set de date este ideal pentru a învăța cum să lucrezi cu serii temporale numerice Le vom folosi pentru a crea un model care preia unele date meteorologice din trecutul apropiat (mai multe zile) ca intrare și prezice temperatura aerului pentru următoarele de ore în viitor Descărcați și extrageți arhiva de date așa cum se arată mai jos: cd ~/Descărcări mkdir jena climate cd jena climate wget https://s amazonaws com/keras-datasets/jena climate csv zip unzip jena climate csv zip Să vedem ce avem Olaf Kolle, www bgc-jena mpg de/wetter Capitolul • Învățare profundă pentru text și secvențe Lista Prezentare generală a setului de date meteorologice Jena import os data dir = '/users/fchollet/Downloads/jena climate' fname = os path join(data dir, 'jena climate csv') f = deschis(fname) date = f read() f close() linii = data split('\n') antet = linii[ ] split(', ') linii = linii[l:] print(header) print(len(linii)) Acest cod va scoate de linii de date (fiecare linie corespunde unei singure măsurători și conține data măsurării și valori ale diferiților parametri legați de vreme), precum și următorul antet: ["Data Ora", "p(mbar)", "T(degC)", "Tpot (K)", "Tdew(degC)", "rh(%)", "VPmax(mbar)", "VPact(mbar)", "VPdef(mbar)", "sh (g/kg)", "H OC (mmol/mol)", "rho (g/m** )", "wv(m/s)", "vw max (m/s)", "wd(grade)"] Acum să convertim toate cele de rânduri de date într-o matrice Numpy Lista Conversia datelor import numpy ca np float data = np zeros((len(linii), len(header) - )) pentru i, linie în enumerate(linii): valori = [float(x) pentru x în linie split(', ')[ : ]] float data[i, :] = valori De exemplu, să construim un grafic (Fig ) al schimbărilor de temperatură (în grade Celsius) Acest grafic arată clar ciclul anual de temperatură Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente Listarea Creați un grafic de temperatură din matplotlib import pyplot ca plt temp = float data[:, ] # temperatură (în grade Celsius) plt plot(range(len(temp))j temp) Orez Graficul schimbării temperaturii (°C), construit pe un set complet de date Iată un grafic mai scurt al schimbărilor de temperatură - pentru primele zile (Fig ) Deoarece datele sunt înregistrate la fiecare minute, se acumulează de citiri pe zi Orez Graficul schimbării temperaturii (°C) conform datelor din primele zile Capitolul • Învățare profundă pentru text și secvențe Lista Crearea unui grafic al schimbării temperaturii din date pentru primele zile plt plot(cange( ), temp[: ]) Pe acest grafic, puteți vedea ciclul zilnic de schimbare a temperaturii, care este observat în mod deosebit în mod clar în segmentul corespunzător ultimelor patru zile De asemenea, rețineți că această întindere de zile corespunde unei luni de iarnă destul de rece Dacă am prezis temperatura medie pentru luna următoare din datele pentru câteva luni anterioare, acest lucru nu ar fi mare lucru din cauza periodicității stabile pe parcursul anului Cu toate acestea, schimbarea temperaturii pe o scară de câteva zile pare mai haotică Este posibil să se prezică secvența de timp pe o scară zilnică cu fiabilitate ridicată? Să aruncăm o privire Pregătirea datelor Iată formularea exactă a problemei: folosind intervale de retrospectivă (un interval este egal cu minute) pentru perioada trecută, din care s-au prelevat probe la fiecare interval de pas, preziceți temperatura pentru următoarele intervale de întârziere Vom folosi următoarele valori ale parametrilor: □ lookback = - numărul de observații pentru ultimele zile; □ pas = - pas de eșantionare din observații, adică o probă pe oră; □ întârziere = - ținta este următoarele de ore în viitor În primul rând, avem nevoie de: □ Convertiți datele într-un format ușor de înțeles de către rețeaua neuronală Este ușor: datele sunt deja reprezentate numeric, așa că nu trebuie să le vectorizăm cumva Cu toate acestea, toate secvențele de timp din date sunt la o scară diferită (de exemplu, temperatura variază de obicei între - și + , în timp ce presiunea atmosferică, măsurată în milibari, variază în jurul valorii de ) Trebuie să normalizăm secvențele de timp în mod independent, astfel încât toate să fie formate din valori mici de aproximativ aceeași scară □ Scrieți un generator în Python care preia setul de date curent și returnează pachete de date reprezentând trecutul recent, precum și temperatura țintă în viitor Deoarece eșantioanele din setul de date sunt inutil redundante (eșantioanele M și M + vor avea multe în comun), ar fi risipitor să izolați și să utilizați în mod explicit fiecare probă În schimb, vom genera mostre din mers folosind datele originale Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente Pe măsură ce procesăm datele, vom scădea media pentru fiecare serie de timp și vom împărți la abaterea standard Pentru antrenament, folosim primele de eșantioane, astfel încât media și abaterea standard ar trebui calculate numai pentru acest eșantion Lista Normalizarea datelor medie = date float[: ] mean(axis= ) date float -= medie std = date float[: ] std(axa= ) date float /= std Lista - arată funcția generatoare de date de care avem nevoie Returnează un tuplu (eșantioane, ținte) în care eșantioanele reprezintă un lot de intrări și țintele este matricea corespunzătoare de temperaturi țintă Funcția ia următoarele argumente: □ data este tabloul original de numere reale, normalizat prin codul din Listatul ; □ lookback - numărul de intervale din trecut dintr-un moment dat, pentru care sunt selectate datele de intrare; □ întârziere - numărul de intervale în viitor din momentul dat, pentru care sunt selectate datele țintă; □ min index și max index - indecși în matricea de date, limitând zona pentru extragerea datelor; aceasta ajută la menținerea intacte a segmentelor de date de verificare și control; □ shuffle - steag care determină ordinea în care se preiau probele: cu shuffle sau în ordine cronologică; □ batch size - numărul de mostre dintr-un lot; □ pas - perioadă în intervale din care se prelevează o probă; îl vom seta la pentru a obține o probă pe oră Lista Funcția generator care returnează secvențe de timp ale mostrelor și țintele acestora def generator (date, lookback, delay, min index, max index, shuffle=False, batch size= , step= ): dacă max index este Niciunul: max index = len(date) - întârziere - i = min index + lookback while : if shuffle: rows = np random randint( min index + lookback, max index, size=batch size) else: if i + batch size >= max index: i = min index + lookback rows = np arange(i, min(i + batch size, max index)) Continuare Capitolul • Învățare profundă pentru text și secvențe Lista (continuare) i += len(rânduri) mostre = np zeros((len(rânduri), privire înapoi // pas, forma date[-l])) targets = np zeros((len(rânduri),)) pentru j, rând în enumerate(rânduri): indici = interval(rânduri[j] - retrospectivă, rânduri[j], pas) mostre[j] = date[indici] ținte[j] = date[rânduri[j] + întârziere][l] eșantioane de randament, ținte Acum folosim funcția de generator abstract pentru a crea alte trei funcții de generator: pentru a primi date de instruire, testare și testare Toate vor eșantiona din diferite segmente de timp ale datelor originale: datele de antrenament vor fi extrase din primele de intervale, datele de testare din următoarele și datele de control din restul Lista Funcții generatoare care returnează date de instruire, testare și testare privire înapoi = pas= întârziere = batch size = train gen = generator(float data, lookback=lookback, delay=delay, min index= , max index= , shuffle=T rue, step=step, batch size=batch size) val gen = generator(float data, lookback=lookback, delay=delay, min index = , max index= , step=step, batch size=batch size) test gen = generator(float data, lookback=lookback, delay=delay, min index= , max index=None, step=step, batch size=batch size) De câte ori trebuie să apelați val gen pentru a obține întregul set de testare val steps = ( - - lookback) // batch size ◄ - test steps = (len(float data) - - lookback) // batch size ◄- De câte ori trebuie să apelați test gen pentru a obține întregul set de teste Tehnici mai bune pentru utilizarea rețelelor neuronale recurente Soluție de bază fără învățare automată Înainte de a începe să folosim cutiile negre ale modelelor de deep learning pentru a rezolva problema predicției temperaturii, să încercăm o abordare mai simplă și mai evidentă Va ajuta la stabilirea unei linii de bază pe care va trebui să o rupăm pentru a demonstra avantajul modelelor de învățare automată mai complexe Astfel de soluții de bază evidente pot fi folosite atunci când abordați o problemă nouă fără o soluție (încă) cunoscută Un exemplu clasic sunt problemele de clasificare dezechilibrate, unde unele clase pot fi mult mai frecvente decât altele Dacă setul de date conține % instanțe din clasa "A" și % instanțe din clasa "B", atunci soluția evidentă a problemei de clasificare este să alegeți întotdeauna clasa "A" pentru a prezice clasele de noi eșantioane Un astfel de clasificator ar avea o precizie generală de % și, în consecință, orice soluție de învățare automată ar trebui să depășească acel % pentru a-și dovedi utilitatea Uneori, astfel de soluții de bază rudimentare sunt surprinzător de greu de învins În acest caz, secvențele de timp pot fi considerate cu deplină certitudine ca fiind monotone (temperatura de mâine va fi probabil apropiată de cea de azi), precum și supuse periodicității zilnice Adică, temperatura actuală este o soluție de bază rezonabilă pentru prezicerea temperaturii în de ore Să evaluăm această abordare folosind metrica Eroare absolută medie (MAE): np mean(np abs(preds - targets)) Iată ciclul de evaluare Lista Evaluarea soluției de bază MAE def evaluate naive method(): batch maes = [] pentru pas în interval(val steps): mostre, obiective = next(val gen) preds = mostre[:, - , ] mae = np mean(np abs(preds - targets)) batch maes append(mae) print(np mean(batch maes)) evaluate naive method() Această buclă a returnat un scor MAE de , Deoarece valorile temperaturii au fost normalizate și au acum o medie de și o abatere standard de , acest număr nu poate fi interpretat direct Eroarea medie absolută în acest caz corespunde cu , x temperature std grade Celsius: , °C Lista Transformarea unei estimări MAE în grade Celsius celsius mae = , * std[l] Capitolul • Învățare profundă pentru text și secvențe Aceasta este o eroare absolută medie destul de mare Acum să încercăm să folosim cunoștințele noastre de deep learning pentru a îmbunătăți această estimare Soluție de bază cu învățare automată Înainte de a încerca să creați un model la fel de complex și de costisitor (în sens computațional) ca o rețea neuronală recurentă, pe lângă soluția de bază fără a implica învățarea automată, este de asemenea util să încercați să găsiți modele simple și ieftine de învățare automată (de exemplu , o rețea de mică adâncime complet conectată) Acesta este cel mai bun mod de a vă asigura că orice complicație care vizează rezolvarea unei probleme este justificată și oferă cu adevărat beneficii Următoarea listă arată un model complet conectat care mai întâi reduce dimensionalitatea datelor și apoi îl rulează prin două straturi de Dense Observați absența unei funcții de activare în ultimul strat Dense, ceea ce este tipic pentru o problemă de regresie Eroarea medie absolută (MAE) este utilizată ca estimare a pierderii Deoarece evaluăm aceleași date cu aceeași metrică ca în soluția de bază anterioară, rezultatele acestora pot fi comparate direct Lista Model de instruire și evaluare complet conectate din keras models import Sequential din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(layers Flatten(input shape=(lookback // pas, float data shape[-l]))) model add(layers Dense( , activation='relu')) model add(straturi dens(l)) model compile(optimizer=RMSprop(), loss='mae') istoric = model fit generator(train gen, steps per epoch= , epochs= , validation data=val gen, validation steps=val steps) Să derivăm curbele de pierdere pentru etapele de antrenament și validare (Fig ) Lista Ieșirea rezultatelor import matplotlib pyplot ca plt pierdere = istorie istorie['pierdere ' ] val loss = istorie istorie['pierdere val'] Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente epoci = interval(l, len(pierdere) + ) plt figure() plt plot(epochs, loss, 'bo', label='Training loss') plt plot(epochs, val loss, 'b', label='Validation loss') plt title('Training and validation loss') plt legendă() plt show() Orez Pierderile de instruire și verificare ale unei rețele simple complet conectate într-o problemă de predicție a temperaturii Jena Unele valori ale pierderilor de validare sunt apropiate de estimarea erorii soluției de bază fără învățare automată, dar această relație este nesigură Acest lucru arată încă o dată cât de important este să ai o soluție de bază: în acest caz, după cum s-a dovedit, nu este ușor să o depășești Soluția noastră de bază se bazează pe informații valoroase la care un model de învățare automată nu are acces Poate aveți o întrebare: deoarece există un model bun și simplu pentru prezicerea obiectivelor din datele disponibile (soluție de bază), de ce modelul care poate fi antrenat nu a funcționat mai bine? Pentru că această soluție simplă nu este deloc ceea ce modelul care poate fi antrenat încearcă să găsească Spațiul modelelor în care căutăm o soluție, adică spațiul ipotezelor, este spațiul tuturor rețelelor posibile cu două straturi cu o configurație pe care o definim Aceste rețele sunt deja destul de complexe Atunci când o căutare a unei soluții este efectuată într-un spațiu model complex, o soluție de bază simplă poate să nu fie de încredere, chiar dacă din punct de vedere tehnic face parte din spațiul ipotezelor Aceasta este o limitare semnificativă a învățării automate în general: cu excepția cazului în care algoritmul de învățare este programat pentru a găsi un anumit model simplu, învățarea parametrilor poate eșua uneori în încercările de a găsi o soluție simplă la o problemă simplă Capitolul Învățare profundă pentru text și secvențe Prima soluție recurentă de bază Prima soluție complet conectată nu a dat un rezultat bun, dar asta nu înseamnă că învățarea automată nu este aplicabilă acestei probleme În abordarea anterioară, primul pas a fost reducerea dimensionalității secvențelor de timp, ceea ce a eliminat conceptul de timp din datele de intrare Acum să ne uităm la aceste date pentru ceea ce sunt cu adevărat: o secvență în care cauza și efectul contează Să încercăm să folosim un model de procesare a secvenței recurente - ar trebui să fie ideal pentru astfel de secvențe de date tocmai pentru că, spre deosebire de prima soluție, ține cont de ordonarea probelor în timp În loc de stratul LSTM prezentat în secțiunea anterioară, folosim stratul GRU dezvoltat de Chung și colegii în Straturile Gated Recurrent Unit (GRU) se bazează pe același principiu ca și straturile LSTM, dar sunt structuri mai simple și, prin urmare, mai puțin costisitoare din punct de vedere computațional (deși este posibil să nu aibă aceeași putere reprezentativă ca și LSTM) Acest compromis între costul de calcul și puterea reprezentativă poate fi observat în întregul domeniu al învățării automate Lista Instruire și evaluare model GRU din keras models import Sequential din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(layers GRU( , input shape=(Niciunul, float data shape[- ]))) model add(straturi dens(l)) model compile(optimizer=RMSprop(), loss='mae') istoric = model fit generator(train gen, steps per epoch= , epochs= , validation data=val gen, validation steps=val steps) Rezultatele sunt prezentate în fig Au iesit mult mai bine! Am reușit să depășim semnificativ soluția de bază și să arătăm valoarea învățării automate, precum și superioritatea rețelelor recurente față de rețelele secvențiale complet conectate pentru a rezolva astfel de probleme Noua estimare a MAE - , (obținută înainte de o manifestare semnificativă a efectului de supraadaptare) după denormalizare corespunde unei erori absolute de , °C Junyoung Chung și colab , "Evaluarea empirică a rețelelor neuronale recidivante Gated pe modelarea secvenței", Conferința privind sistemele de procesare a informațiilor neuronale ( ), https://arxiv org/abs/ Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente Aceasta este o îmbunătățire semnificativă față de eroarea anterioară de , °C, dar este posibil să avem încă loc de îmbunătățire Orez GRU Model Training and Validation Losses in Jena Temperature Prediction Problem Folosind decimarea recurentă pentru a combate supraadaptarea Din curbele de pierdere la etapele de antrenament și verificare se poate observa că efectul de supraadaptare se instalează rapid în model: pierderile încep să difere semnificativ după mai multe epoci Sunteți deja familiarizat cu contorul clasic al acestui fenomen, decimarea, în care valorile de intrare selectate aleatoriu sunt setate la zero pentru a rupe corelații neașteptate în datele de antrenament care afectează stratul Cu toate acestea, aplicarea corectă a subțierii în rețelele recurente este o sarcină dificilă Se știe de mult timp că aplicarea subțierii înaintea unui strat recurent împiedică învățarea mai degrabă decât ajută la regularizare În , Yarin Gal, ca parte a tezei sale de doctorat despre învățarea profundă bayesiană , a identificat modalitatea corectă de a aplica decimarea rețelelor recurente: aceeași mască de decimare ar trebui să fie aplicată la toate intervalele de timp (aceleași valori ar trebui reduse la zero) și nu se schimbă de la interval la interval Mai mult, pentru a regulariza reprezentările generate de straturi recurente precum GRU și LSTM, trebuie aplicată o mască de decimare constantă în timp activărilor interne recurente ale stratului (mască de decimare recurentă) Aplicarea aceleiași măști de decimare la fiecare interval de timp permite rețelei să-și propagă corect eroarea de antrenament în timp; o mască temporal-aleatorie va rupe acest semnal de eroare și va afecta procesul de învățare Yarin Gal, "Incertitudinea în învățarea profundă (teză de doctorat)", octombrie , http://mlg eng cam ac uk/yarin/blog html Capitolul • Învățare profundă pentru text și secvențe Yarin Gal a făcut cercetări folosind Keras și a contribuit la construirea acestui mecanism direct în straturile recurente ale Keras Fiecare strat recurent din Keras are două argumente legate de abandon: dropout, un număr real care specifică fracțiunea valorilor de intrare ale stratului care trebuie renunțat, și recurrent dropout care specifică fracțiunea valorilor recurente care trebuie renunțată Să adăugăm intrare și decimare recurentă la stratul GRU și să vedem cum afectează supraadaptarea Deoarece rețelele regularizate cu subțiere durează întotdeauna mai mult pentru a converge complet, vom antrena rețeaua în epoci de două ori mai multe Lista Instruire și evaluare model GRU cu regularizare decimare from keras models import Secvenţial din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(layers GRU( , abandon= , recurrent dropout= , input shape=(Niciunul, float data shape[- ]))) model add(straturi dens(l)) model compile(optimizer=RMSprop(), loss='mae') history = model fit generator(train gen, steps per epoch= , epochs= , validation data=val gen, validation steps=val steps) Rezultatele sunt prezentate în fig Succes! Acum efectul de recalificare nu se observă în primele de epoci Cu toate acestea, deși scorurile sunt acum mai stabile, cele mai bune dintre ele nu sunt cu mult mai mici decât cele anterioare , , , , , f Pierderi la etapa de antrenament Pierderi la etapa de verificare Orez Pierderile de instruire și validare ale unui model zecimat bazat pe GRU într-o problemă de predicție a temperaturii Jena Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente Stivuirea mai multor straturi recurente Reciproc După ce am scăpat de efectul de supraadaptare, ne confruntăm cu o problemă de calitate scăzută, așa că acum trebuie să ne gândim la creșterea capacității rețelei Amintiți-vă descrierea procesului generalizat de învățare automată: se recomandă întotdeauna să încercați să creșteți capacitatea rețelei până când problema suprainstalării apare în primul rând (cu condiția ca toate măsurile principale împotriva acesteia, cum ar fi subțierea, să fie Luat) Atâta timp cât problema suprainstalării nu este acută, rețeaua este probabil subcapacitată Capacitatea rețelei este de obicei crescută prin creșterea numărului de parametri de nivel sau prin adăugarea de straturi suplimentare Stivuirea straturilor recurente unele peste altele este o modalitate clasică de a construi rețele recurente mai puternice: de exemplu, în prezent algoritmul Google Translate este un teanc de șapte straturi LSTM mari - aceasta este o rețea uriașă Când stivuiți straturi recurente în Keras, toate straturile intermediare trebuie să returneze secvențe complete de ieșire (tensor D), nu doar ultimul interval Acest lucru se realizează prin setarea return sequences=True Lista Antrenați și evaluați un model cu mai multe straturi GRU iar cu regularizare decimare din keras models import Sequential din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(layers GRU( , dropout= , recurrent dropout= , return sequences=T rue, input shape=(Niciunul, float data shape[- ]))) model add(layers GRU( , activation='relu ', abandon= , , abandon recurent= , )) model add(straturi dens(l)) model compile(optimizer=RMSprop(), loss='mae') istoric = model fit generator(train gen, steps per epoch= , epochs= , validation data=val gen, validation steps=val steps) Rezultatele sunt prezentate în fig După cum puteți vedea, stratul suplimentar a îmbunătățit puțin rezultatele, deși nu mult De aici putem trage două concluzii: Capitolul Învățare profundă pentru text și secvențe □ Deoarece problema supraajustării nu este încă acută, puteți continua să măriți dimensiunea straturilor în încercarea de a îmbunătăți estimarea pierderii în timpul fazei de verificare Cu toate acestea, acest lucru este asociat cu resurse de calcul considerabile □ Adăugarea unui strat nu a dus la o îmbunătățire semnificativă, adică în acest caz se constată o scădere a randamentului creșterii capacității rețelei Orez Pierderile de instruire și validare ale unui model multistrat bazat pe GRU într-o problemă de predicție a temperaturii din Jena Data Utilizarea rețelelor neuronale recurente bidirecționale Ultimul instrument pe care îl vom acoperi în această secțiune se numește Rețele neuronale recurente bidirecționale (RNN bidirecțional) O rețea recurentă bidirecțională este un tip comun de rețea recurentă care poate oferi o soluție de calitate superioară la unele probleme Este adesea folosit în procesarea limbajului natural - poate fi chiar numit cuțitul elvețian al învățării profunde pentru procesarea limbajului natural Rețelele recurente sunt dependente de ordine sau timp: procesează secvențele de intrare în ordine, iar orice modificare a ordinii datelor poate schimba complet reprezentarea pe care rețeaua recurentă o va extrage din secvență Acesta este motivul pentru care sunt atât de buni la sarcini în care ordinea contează, cum ar fi predicția temperaturii Rețeaua recurentă bidirecțională utilizează sensibilitatea de ordine a RNN-urilor: constă din două rețele recurente convenționale, cum ar fi straturile GRU și LSTM cu care sunteți deja familiarizați, fiecare dintre aceste rețele procesează secvența de intrare într-o direcție (înainte sau înapoi), iar apoi reprezentările rezultate se unesc Procesarea secvenței în două Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente direcții, o rețea recurentă bidirecțională este capabilă să detecteze tipare care sunt invizibile pentru o rețea unidirecțională Este de remarcat faptul că ordinea în care secvențele sunt procesate în ordine cronologică (de la cea mai veche la cea mai nouă) în această secțiune a fost aleasă destul de arbitrar Cel puțin nu am încercat să punem în discuție această decizie Pot rețelele recurente să arate rezultate bune prin procesarea secvențelor, de exemplu, în ordine inversă (de la cel mai nou la cel mai vechi)? Să încercăm această soluție și să vedem ce se întâmplă Pentru a face acest lucru, trebuie doar să scrieți o versiune a generatorului de date care inversează secvențele de intrare (cu alte cuvinte, înlocuiți ultima linie din funcția generator generic cu instrucțiunile yield samples [:, : : - , : ], ținte) Antrenarea aceleiași rețele cu un singur strat GRU care a fost utilizat în primul experiment din această secțiune a dat rezultatele prezentate în Figura Orez Pierderi de formare și validare a modelului GRU în predicția de temperatură instruită în secvență inversă din datele Jena O rețea GRU care procesează secvențe în ordine inversă nici măcar nu atinge nivelul unei soluții de bază Aceasta este o dovadă clară că, în acest caz, ordinea cronologică a procesării este de mare importanță pentru succes Acest lucru este de înțeles: stratul GRU își amintește de obicei trecutul recent mai bine decât cel mai îndepărtat și, desigur, informațiile meteo mai recente sunt mai importante pentru prognoză decât cele vechi (de aceea soluția de bază fără a implica învățarea automată oferă o precizie atât de mare ) Prin urmare, versiunea stratului care procesează datele în ordine înainte trebuie să depășească versiunea care procesează datele în ordine inversă Este important de remarcat că acest lucru nu este întotdeauna valabil pentru alte sarcini, inclusiv pentru procesarea limbajului natural: în mod evident, importanța unui cuvânt pentru înțelegerea unei propoziții este de obicei independentă de poziția sa în acea propoziție Să încercăm același truc cu exemplul de analiză a datelor IMDB cu stratul LSTM din Secțiunea Capitolul Învățare profundă pentru text și secvențe Lista Instruire și evaluare LSTM pe secvențe inversate Numărul de cuvinte luate în considerare ca semne din keras datasets import imdb din secvența de import keras preprocessing din straturi de import keras din keras models import Sequential Decupați textul după acest număr de cuvinte (printre max features cele mai comune cuvinte) L► max features = maxlen = (x train, y train)j (x test, y test) = imdb load data( num words=max features) ◄ - Încărcare date ] | Inversarea secvenței x train = [x[::-l] pentru x în x train x test = [x[::-l] pentru x în x test] x train = sequence pad sequences(x trainj maxlen=maxlen) x test = sequence pad sequences(x testj maxlen=maxlen) Finalizarea secvenței model = Sequential() model add(layers Embedding(max featureSj )) model add(straturi LSTM( )) model add(layers Dense(lj activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentropy', metrics=['acc']) istoric = model fit(x trainj y train, epochs= j batch size= j validation split= , ) Rezultatul este o calitate apropiată de cea obținută folosind un strat LSTM care prelucrează datele în ordine cronologică Este de remarcat faptul că, cu un astfel de set de date text, procesarea secvențelor în ordine inversă dă aceleași rezultate bune ca și procesarea în ordine directă Acest lucru susține ipoteza că, deși ordinea cuvintelor dintr-o propoziție este importantă pentru înțelegerea acesteia, direcția în care sunt procesate propozițiile nu este critică De asemenea, trebuie remarcat faptul că o rețea recurentă antrenată pe secvențe inversate va obține reprezentări diferite, la fel cum ai obține tu însuți modele mentale diferite dacă timpul ar curge înapoi și ți-ai trăi viața în direcția de la moarte la naștere În învățarea automată, nu trebuie să neglijați reprezentările diferite, dar utile și, cu cât acestea diferă mai mult, cu atât mai bine: vă permit să priviți datele dintr-un unghi diferit, să descoperiți aspecte omise de alte abordări și, ca urmare, să îmbunătățiți calitatea solutiei problemei Această idee se află în centrul metodei de învățare prin ansamblu pe care o vom explora în capitolul Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente Rețeaua recurentă bidirecțională folosește această idee pentru a îmbunătăți calitatea învățării pe datele ordonate Scanează secvența de intrare în ambele direcții (Figura ), obține vizualizări potențial mai bogate și evidențiază modele care ar putea fi omise de versiunea unidirecțională Date de intrare Orez Principiul de funcționare a unei rețele neuronale recurente bidirecționale Pentru a crea o rețea recurentă bidirecțională, Keras are un strat Bidirecțional care ia ca prim argument o instanță a stratului recurent Stratul Bidirecțional creează o a doua instanță separată a acestui strat recurent și utilizează o instanță pentru a procesa secvențele de intrare în ordine înainte și cealaltă în ordine inversă Să încercăm această tehnică cu privire la problema analizării sentimentului recenziilor din setul de date IMDB Lista Instruirea și evaluarea unui model LSTM bidirecțional model = Sequential() model add(layers Embedding(max featureSj )) model add(straturi Bidirectional(straturi LSTM( ))) model add(layers Dense(lj activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentmountain', metrics=['acc']) history = model fit(x trainj ydzgaip, epochs= j batch size= j validation split= , ) Rezultatele sunt ușor îmbunătățite în comparație cu modelul LSTM convențional pe care l-am testat în secțiunea anterioară Scorul de acuratețe la etapa de verificare a depășit %> De asemenea, acest model pare să ajungă mai repede la starea de supraadaptare, ceea ce nu este surprinzător deoarece stratul bidirecțional are de două ori mai mulți parametri față de stratul LSTM unidirecțional La- Capitolul • Învățare profundă pentru text și secvențe Schimbând unele regularizări, cu siguranță am putea îmbunătăți calitatea acestui model Acum să încercăm să aplicăm aceeași abordare problemei de predicție a temperaturii Lista Training model GRU bidirecțional din keras models import Sequential din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(straturi Bidirectional( layers GRU( )j input shape=(Niciunul float data shape[-l]))) model add(straturi dens(l)) model compile(optimizer=RMSprop()J loss='mae') istoric = model fit generator(train gen, steps per epoch= j epochs= j validation data=val gen, validation steps=val steps) Calitatea acestui model nu s-a îmbunătățit deloc în comparație cu stratul obișnuit GRU Este ușor de înțeles de ce: toată puterea predictivă provine din jumătatea cronologică anterioară a rețelei, deoarece, așa cum am văzut deja, calitatea jumătății înapoiate este cu mult în urmă la această sarcină (pentru că în acest caz trecutul recent a valoare mai mare decât cea îndepărtată) Ce urmeaza Există multe alte trucuri care ar putea fi încercate pentru a îmbunătăți calitatea predicției temperaturii: ▸ Modificați numărul de parametri din fiecare strat recurent într-o configurație cu mai multe straturi Alegerea actuală a fost făcută aproape arbitrar și, prin urmare, cu siguranță nu este optimă □ Modificați rata de învățare cu optimizatorul RMSprop □ Încercați să utilizați straturi LSTM în loc de GRU □ Încercați să utilizați un regresor mai mare complet conectat deasupra straturilor recurente, adică un strat Dens mai mare sau chiar mai multe straturi Dense □ Nu uitați să încercați în sfârșit cele mai bune modele (în ceea ce privește eroarea medie absolută) de pe setul de control! În caz contrar, veți ajunge cu arhitecturi reeducate pe setul de testare Tehnici îmbunătățite pentru utilizarea rețelelor neuronale recurente Ca întotdeauna, învățarea profundă este mai mult o artă decât o știință Putem face recomandări sugerând ce tehnici pot sau nu îmbunătăți calitatea unei sarcini date, dar fiecare sarcină este în cele din urmă unică; va trebui să evaluați experimental diferite strategii În prezent, nu există nicio teorie care să spună dinainte ce ar trebui făcut pentru a obține soluția optimă a problemei Ar trebui doar să încerci Rezumând Iată concluziile pe care ar trebui să le trageți din tot ceea ce ați învățat în această secțiune: □ După cum am învățat prima dată în Capitolul , atunci când începeți o nouă problemă, este întotdeauna o idee bună să veniți cu o soluție de bază bazată pe valorile alese de dvs Dacă nu aveți o soluție de bază la care să vă uitați, nu veți putea spune dacă vă mișcați în direcția corectă □ Încercați mai întâi să construiți modele simple pentru a vedea dacă este nevoie de mai mult efort Uneori, un model simplu poate fi cea mai bună soluție □ Pentru procesarea datelor în care ordinea contează, rețelele recurente sunt cele mai potrivite - ele depășesc cu ușurință modelele care reduc mai întâi dimensionalitatea datelor originale □ La aplicarea tehnicii de decimare cu rețele recurente, utilizați măști de decimare constantă temporală și recurentă Keras are deja încorporate straturi recurente, așa că tot ce trebuie să faceți este să definiți argumentele lor dropout și recurrent dropout □ Combinațiile de mai multe straturi recurente oferă mai multă reprezentativitate decât un singur strat Ele sunt, de asemenea, mult mai costisitoare din punct de vedere computațional și, prin urmare, nu sunt întotdeauna justificate Acestea vă permit să îmbunătățiți calitatea rezolvării problemelor complexe (cum ar fi traducerea automată), dar nu sunt întotdeauna potrivite pentru sarcini mici și simple □ Rețelele recurente bidirecționale care scanează o secvență de date în ambele direcții dau rezultate bune în problemele de procesare a limbajului natural Dar nu sunt prea potrivite pentru procesarea secvențelor în care datele recente sunt mai informative decât cele de la început NOTĂ Există alte două concepte importante pe care nu le vom discuta în detaliu aici: modelele de atenție recurentă și mascarea secvenței Ambele metode sunt bune pentru procesarea limbajului natural și proaste pentru predicția temperaturii Vă lăsăm pe voi să le explorați pe cont propriu Capitolul • Învățare profundă pentru text și secvențe PIEȚE ȘI MACHINE LEARNING Unii cititori vor dori probabil să folosească tehnicile prezentate aici pentru a prezice valoarea titlurilor de valoare pe bursă (cursuri de schimb etc ) Piețele au caracteristici statistice foarte diferite față de fenomenele naturale, cum ar fi vremea Utilizarea învățării automate pentru a prezice comportamentul piețelor atunci când există doar date publice este o sarcină dificilă și, cel mai probabil, veți pierde timp și efort fără a obține nimic Amintiți-vă întotdeauna: când vine vorba de piață, datele din trecut sunt o bază slabă pentru predicții - este imposibil să mergeți înainte privind în oglinda retrovizoare Pe de altă parte, învățarea automată este justificată atunci când este aplicată la seturi de date atunci când trecutul este un bun predictor al viitorului Procesarea secvenței cu rețele neuronale convoluționale În capitolul , am introdus rețelele neuronale convoluționale și am învățat că acestea sunt deosebit de potrivite pentru rezolvarea problemelor de recunoaștere a modelelor datorită capacității lor de a convolu parametri, de a extrage caracteristici din modele de intrare locale și de a produce reprezentări eficiente și modulare ale datelor Aceleași proprietăți ale rețelelor neuronale convoluționale care le fac ideale pentru recunoașterea modelelor sunt excelente pentru procesarea secvenței Timpul poate fi gândit ca o dimensiune spațială, cum ar fi înălțimea sau lățimea unei imagini bidimensionale Astfel de rețele neuronale convoluționale unidimensionale pot concura cu succes cu rețelele recurente în unele probleme de procesare a secvenței, de regulă, necesitând mai puține resurse de calcul Nu cu mult timp în urmă, rețelele neuronale convoluționale unidimensionale, care sunt utilizate în mod obișnuit cu nucleele extinse, au fost aplicate cu succes la generarea de sunet și traducerea automată Pe lângă aceste progrese specifice, se știe de mult timp că micile CNN D pot servi ca o alternativă rapidă la rețelele recurente în sarcini simple, cum ar fi clasificarea textului și predicția secvenței de timp Prelucrarea datelor seriale cu o rețea neuronală convoluțională D Straturile convoluționale care ne-au fost introduse mai sus au fost convoluții D care extrag modele D din tensorii imaginii și aplică transformări identice fiecărui astfel de model În mod similar, convoluțiile unidimensionale pot fi utilizate pentru a extrage modele unidimensionale (subsecvențe) din secvențe (Figura ) Secvențe de procesare cu rețele neuronale convoluționale Intrare Ieșire Fereastră cu marimea Orez Cum funcționează o rețea neuronală convoluțională unidimensională: fiecare interval de timp este extras dintr-un model de timp din secvența de intrare Deci, straturile convoluționale unidimensionale sunt capabile să recunoască modele locale într-o secvență Deoarece aceleași transformări sunt aplicate fiecărui model, un anumit model găsit într-o anumită poziție dintr-o propoziție poate fi recunoscut ulterior într-o poziție diferită, făcând invariante (în timp) transformările efectuate de rețelele convoluționale D De exemplu, o rețea convoluțională D care procesează o secvență de caractere și utilizează o fereastră de convoluție de dimensiunea este capabilă să stocheze cuvinte sau fragmente de cuvinte cu o lungime de până la caractere și să recunoască acele cuvinte în orice context din secvența de intrare, adică un Rețeaua convoluțională D care procesează textul caracter cu caracter este capabilă să studieze morfologia cuvintelor Selectarea valorilor vecine într-o secvență de date unidimensională Sunteți deja familiarizați cu operațiunile de selecție a vecinilor D, cum ar fi alegerea valorii medii sau maxime din datele D, care sunt utilizate în rețelele convoluționale pentru a reduce rezoluția tensorilor imaginii Operațiile de selecție bidimensională au un echivalent unidimensional care extrage modele unidimensionale (subsecvențe) din intrare și returnează valoarea maximă (selectarea valorii maxime din vecini) sau valoarea medie (selectarea valorii medii din vecini) La fel ca în rețelele convoluționale D, această operație este utilizată pentru a reduce lungimea intrării D (reducere rezoluție) Capitolul • Învățare profundă pentru text și secvențe Implementarea unei rețele convoluționale unidimensionale În Keras, rețelele convoluționale unidimensionale sunt create folosind stratul ConvlD, a cărui interfață seamănă cu cea a stratului Conv D Ia ca intrare tensori D cu formă (modele, timp, caracteristici) și returnează tensori D cu aceeași formă Fereastra de convoluție este o fereastră unidimensională pe axa timpului: axa cu indicele în tensorul de intrare Să încercăm să construim o rețea convoluțională unidimensională simplă cu două straturi și să o folosim pentru a rezolva problema deja familiară a determinării colorării emoționale a recenziilor din setul de date IMDB Ca o reamintire, mai jos este codul pentru obținerea și pregătirea datelor Lista Pregătirea datelor IMDB din keras datasets import imdb din keras preprocesare secvență de import max features = max len = print('Se încarcă datele ') (x train, y train), (x test, y test) = imdb load data(num words= max features) print(len(x train), 'secvenţe de tren') print(len(x test), 'secvenţe de testare') print('Secvențe de pad (eșantioane x timp)') x train = sequence pad sequences(x train, maxlen=max len) x test = sequence pad sequences(x test, maxlen=max len) print('x train shape:', x train shape) print('x test shape:', x test shape) Rețelele convoluționale D sunt structurate ca și omologii lor D pe care i-am întâlnit în Capitolul : ele constau dintr-un teanc de straturi ConvlD și MaxPoolinglD, care se termină cu un strat GlobalMaxPoolinglD sau Flatten care convertește ieșirea D în D, permițându-vă să adăugați unul sau mai multe straturi Dense straturi pentru clasificare sau regresie Una dintre diferențe este capacitatea de a utiliza ferestre de convoluție mai mari în rețelele convoluționale unidimensionale O fereastră de convoluție * într-un strat de convoluție D conține x = vectori caracteristici, în timp ce într-un strat de convoluție D o fereastră de dimensiunea conține doar vectori caracteristici În consecință, putem folosi cu ușurință ferestre de convoluție cu o dimensiune de sau Iată un exemplu de rețea neuronală convoluțională D pentru a procesa setul de date IMDB Procesarea secvenței cu rețele neuronale convoluționale Lista Instruire și evaluare a unei rețele convoluționale simple D pe date IMDB din keras models import Sequential din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(layers Embedding(max features, , input length=max len)) model add(layers ConvlD( , , activation='relu')) model add(straturi MaxPoolinglD( )) model add(layers ConvlD( , , activation='relu')) model add(layers GlobalMaxPoolinglD()) model add(straturi dens(l)) model rezumatO model compile(optimizer=RMSprop(lr=le- ), loss='binary crossentropy', metrics=['acc ' ]) istoric = model fit(x train, y train, epochs= , batch size= , validation split= , ) Ha puc și arată rezultatele antrenamentului și testării Precizia în etapa de verificare s-a dovedit a fi puțin mai mică decât în cazul utilizării LSTM, dar viteza de procesare în ambele cazuri - pe CPU și GPU - sa dovedit a fi mai mare (creșterea vitezei specifice depinde în mare măsură de configurația hardware) Acum puteți reeduca modelul pe numărul corect de epoci (patru) și îl puteți testa pe setul de date de control Aceasta este o demonstrație convingătoare că o rețea neuronală convoluțională unidimensională poate servi ca o alternativă rapidă și ieftină la o rețea recurentă în sarcina de a determina colorarea emoțională a unui text Orez Pierdere de instruire și validare pentru un model de analiză IMDB cu o rețea convoluțională simplă D Capitolul Învățare profundă pentru text și secvențe Orez Precizie de instruire și validare pentru un model de analiză IMDB cu o rețea convoluțională simplă D Combinarea rețelelor convoluționale și recurente pentru a gestiona secvențe lungi Deoarece o rețea convoluțională unidimensională procesează tiparele de intrare în mod independent, este insensibilă la ordinea intervalelor de timp (cu excepția locală, în cadrul ferestrei de convoluție), spre deosebire de o rețea recurentă Desigur, pentru a recunoaște modele mai lungi, puteți utiliza tehnica de a stivui mai multe straturi convoluționale și straturi de selecție vecine unul peste altul, ca urmare, straturile superioare vor vedea fragmente din ce în ce mai lungi ale datelor de intrare originale, dar aceasta este o modalitate prea slabă de a include sensibilitatea comenzii Putem demonstra slăbiciunea acestei abordări prin utilizarea rețelelor convoluționale unidimensionale pentru a rezolva problema predicției temperaturii, unde sensibilitatea la ordine este un factor cheie pentru obținerea unei bune predicții Următorul exemplu reutiliza variabilele care au fost definite anterior: float data, train gen, val gen și val steps Lista Antrenarea și evaluarea unei rețele convoluționale simple D pe datele din setul Jena din keras models import Sequential din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(layers ConvlD( j , activation='relu', input shape=(Nonej float data shape[- ]))) model add(layers MaxPoolinglD( )) model add(layers ConvlD( j , activation='relu ')) model add(straturi MaxPoolinglD( )) model add(layers ConvlD( j , activation='relu ')) Secvențe de procesare cu rețele neuronale convoluționale model add(layers GlobalMaxPoolinglD()) model add(straturi dens(l)) model compile(optimizer=RMSprop() , loss='mae') istoric = model fit generator(train genj pași pe epocă= j epochs= j validation data=val gen, validation steps=val steps) Ha puc Figura prezintă diagrame de pierdere a erorii absolute medii (MAE) în timpul fazelor de instruire și evaluare Orez Pierderi în timpul antrenamentului și validării unui model bazat pe o rețea convoluțională simplă unidimensională în problema predicției temperaturii din datele Jena Valoarea erorii absolute medii la etapa de verificare rămâne peste , : o rețea convoluțională mică nu poate depăși nici măcar soluția de bază Din nou, motivul este că rețeaua convoluțională caută modele oriunde în secvența de intrare, indiferent de locația lor (mai aproape de început, mai aproape de sfârșit etc ) Deoarece datele recente trebuie interpretate diferit de datele îndepărtate în această problemă de predicție, rețeaua convoluțională nu a reușit să producă rezultate semnificative Cu toate acestea, această limitare a rețelelor convoluționale nu este o problemă pentru sarcina de clasificare a recenziilor în setul de date IMDB, deoarece modelele cheie asociate cu sentimentul pozitiv sau negativ rămân informative, indiferent de locația lor în secvențele de intrare O strategie de a combina viteza și ușurința rețelelor convoluționale cu sensibilitatea la ordinea rețelelor recurente este de a folosi o rețea convoluțională unidimensională pentru a preprocesa datele înainte de a le transmite rețelei recurente (Figura ) Acest truc este deosebit de avantajos atunci când secvențele disponibile sunt atât de lungi (câteva mii de Capitolul Învățare profundă pentru text și secvențe multe intervale și mai mult) că este nerealist să le procesezi folosind o rețea recurentă Partea de convoluție va transforma secvența lungă de intrare într-o secvență mai scurtă de caracteristici de nivel înalt (reducând rezoluția acesteia) Și apoi secvența caracteristicilor selectate este alimentată la intrarea părții recurente a rețelei Orez Combinarea rețelelor convoluționale și recurente D pentru a procesa secvențe lungi Această tehnică este rar întâlnită în articolele științifice și în aplicațiile practice, poate pentru că este puțin cunoscută Cu toate acestea, are o eficiență destul de ridicată și merită o distribuție mai largă Să-l testăm pe problema predicției temperaturii Deoarece această strategie ne permite să manipulăm secvențe mult mai lungi, putem folosi date mai îndepărtate (prin creșterea parametrului de retrospectivă al generatorului de date) sau mărim rezoluția secvențelor de timp (prin scăderea parametrului pas al generatorului) Pentru acest exemplu, s-a decis în mod arbitrar reducerea valorii pasului la jumătate, drept urmare secvențele de timp s-au dublat, iar acum probele cu valorile temperaturii sunt prelevate la intervale de de minute Exemplul reutiliza funcția generator definită mai sus (vezi Lista ) Lista Pregătirea generatoarelor de date de înaltă rezoluție pentru setul de date Jena pas = ◄ Am fost (o probă pentru fiecare oră); privire înapoi = | acum are o valoare de (o probă la fiecare de minute) întârziere = ◄ - Nicio modificare train gen = generator(float dataj lookback=lookbackj întârziere=întârziere Secvențe de procesare cu rețele neuronale convoluționale min index= , max index= , shuffle=Adevărat, pas=pas) val gen = generator(float data, lookback=lookback, întârziere = întârziere, min index= , max index= , pas=pas) test gen = generator(float data, lookback=lookback, întârziere = întârziere, min index= , max index=Niciuna, pas=pas) val steps = ( - - lookback) // test steps = (len(float data) - - lookback) // Modelul începe cu două niveluri ConvlD urmate de un nivel GRU Rezultatele modelului sunt prezentate în fig Orez Pierderi în timpul antrenamentului și validării unui model bazat pe o rețea convoluțională unidimensională și un strat GRU în problema predicției temperaturii din datele Jena Lista Model care combină fundația convoluțională D și stratul GRU de la keras models import Sequential din straturi de import keras din keras optimizers import RMSprop model = Sequential() model add(layers ConvlD( , , activation='relu', input shape=(Niciunul, float data shape[- ]))) model add(straturi MaxPoolinglD( )) model add(layers ConvlD( , , activation='relu')) Continuare & Capitolul • Învățare profundă pentru text și secvențe Lista (continuare) model add(layers GRU( j abandon= , , recurrent dropout= , )) model add(straturi dens(l)) model summary() model compile(optimizer=RMSprop() , loss='mae') istoric = model fit generator(train genj pași pe epocă= j epochs= j validation data=val genJ validation steps=val steps) Judecând după mărimea pierderilor din etapa de verificare, această combinație nu ajunge la soluție cu un strat GRU regularizat, dar funcționează mult mai rapid Scanează de două ori mai multe date, ceea ce nu pare deosebit de util în acest caz, dar ar putea fi important în alte sarcini Rezumând Iată concluziile pe care ar trebui să le trageți din tot ceea ce ați învățat în această secțiune: □ Similar cu rețelele convoluționale D, care sunt excelente la extragerea tiparelor vizuale în spațiul D, rețelele convoluționale D sunt potrivite pentru extragerea tiparelor temporale În unele sarcini, în special în procesarea limbajului natural, acestea pot servi ca o alternativă mai rapidă la rețelele recurente □ Rețelele convoluționale unidimensionale sunt de obicei structurate în același mod ca și omologii lor bidimensionali din lumea recunoașterii modelelor: ele constau dintr-un teanc de straturi ConvlD și MaxPoolinglD, care se termină cu un strat GlobalMaxPoolinglD sau Flatten □ Deoarece rețelele recurente sunt prea scumpe pentru a procesa secvențe foarte lungi, iar rețelele convoluționale D sunt mai puțin costisitoare, poate fi o idee bună să folosiți o rețea convoluțională D pentru a preprocesa secvența înainte de a o trece la rețeaua recurentă Acesta va reduce secvența și va extrage o reprezentare utilă pentru procesarea ulterioară de către rețeaua recurentă Scurt rezumat al capitolului □ În acest capitol, ați învățat următoarele tehnici care se aplică oricărui set de date, de la text la serii cronologice: • modul de tokenizare a textului; ce sunt reprezentările vectoriale ale cuvintelor și cum să le folosești; Rezumatul capitolului • ce sunt rețelele recurente și cum se utilizează; • cum să combinați straturile recurente și să utilizați rețele recurente bidirecționale pentru a crea modele puternice de procesare a secvenței; • modul de utilizare a rețelelor convoluționale unidimensionale pentru procesarea secvențelor; • cum să combinați rețelele convoluționale și recurente unidimensionale pentru a procesa secvențe lungi □ Rețelele recurente pot fi utilizate pentru regresie ("predica viitorul"), clasificare, detectarea anomaliilor și etichetarea secvenței (de exemplu, evidențierea numelor sau a datelor în propoziții) □ În mod similar, rețelele convoluționale unidimensionale pot fi utilizate pentru a implementa traducerea automată (modele convoluționale secvență-la-secvență, cum ar fi SliceNeta ), clasificarea documentelor și verificarea ortografică □ Dacă ordinea globală a datelor din secvență contează, este de preferat să procesați astfel de date folosind o rețea recurentă Acest lucru se aplică, de exemplu, secvențelor de timp în care trecutul recent este mai informativ decât cel îndepărtat □ Dacă ordinea globală a datelor nu este critică, pentru procesarea acestora pot fi utilizate cu succes rețele convoluționale unidimensionale, a căror utilizare este mai puțin costisitoare, iar rezultatul obținut este cel puțin la fel de bun Acest lucru este valabil mai ales pentru datele text, unde un model cheie găsit la începutul unei propoziții nu va fi mai puțin semnificativ decât un model găsit la sfârșit A se vedea https://arxiv org/abs/ Cele mai bune practici avansate de învățare profundă Acest capitol acoperă următoarele subiecte: z API funcțional al cadrului Keras; z folosind apeluri Keras; z folosind instrumentul de vizualizare TensorBoard; z cele mai bune practici cheie pentru dezvoltarea modelelor moderne Acest capitol explorează câteva instrumente puternice pentru construirea de modele de ultimă generație pentru a rezolva probleme complexe Folosind API-ul funcțional al cadrului Keras, puteți construi modele asemănătoare unui grafic, puteți reutiliza același strat pentru a procesa diferite intrări și puteți utiliza modele Keras precum funcțiile în Python Apelurile Keras și instrumentul de vizualizare TensorBoard vă permit să urmăriți procesul de formare a modelului Vom discuta, de asemenea, despre alte tehnici avansate, inclusiv normalizarea loturilor, legăturile reziduale, optimizarea hiperparametrilor și asamblarea Dincolo de modelul secvențial: API-ul funcțional Keras Toate rețelele neuronale prezentate mai devreme în această carte au fost implementate folosind modelul secvențial Acest model se bazează pe presupunerea că rețeaua are o singură intrare și o singură ieșire și constă dintr-o stivă liniară de straturi (Figura ) Aceasta este o presupunere comună; această configurație este atât de comună încât până acum am reușit să acoperim multe subiecte și practice Dincolo de modelul secvenţial: Keras Functional API Ieșire Intrare Orez Model secvenţial: stivă de straturi liniare aplicații care utilizează numai clasa de modele Secvențială Cu toate acestea, în unele cazuri, această presupunere se dovedește a fi prea rigidă Unele rețele necesită mai multe intrări independente, altele mai multe ieșiri, iar altele au ramuri interne care conectează straturi, făcându-le să pară mai degrabă grafice decât stive liniare de straturi Unele sarcini, de exemplu, necesită intrări multimodale: ele combină date care provin din surse diferite, procesând fiecare tip de date folosind diferite tipuri de straturi neuronale Imaginați-vă un model de învățare profundă care încearcă să prezică prețul de piață cel mai probabil al unui articol de îmbrăcăminte uzat având în vedere următoarele intrări: metadate furnizate de utilizator (cum ar fi numele mărcii producătorului, data de expirare etc ), o descriere text și o fotografie Dacă ați avea doar metadatele, ați putea să le aplicați o metodă de codare directă și să utilizați o rețea complet conectată pentru a estima prețul Dacă ai avea doar o descriere textuală, ai putea folosi o rețea convoluțională recurentă sau unidimensională Dacă ai avea doar o fotografie, ai putea folosi o rețea convoluțională D Deci, cum folosiți toate cele trei tipuri de intrare în același timp? Cea mai simplă soluție ar fi antrenarea a trei modele separate și apoi calcularea unei medii ponderate a predicțiilor lor Cu toate acestea, această soluție poate să nu fie cea mai optimă, deoarece informațiile extrase de modele pot fi redundante O soluție mai bună este să înveți un model de date mai precis folosind un model de învățare automată care este capabil să proceseze toate modalitățile de intrare în același timp - un model cu trei ramuri de intrare (Fig ) De asemenea, în unele probleme este necesar să se prezică mai multe atribute țintă având în vedere datele de intrare De exemplu, în funcție de textul unui roman sau al unei povești, determinați genul (o poveste de dragoste sau o poveste militară) și data aproximativă a scrierii lor Desigur, este posibil să se pregătească două modele separate, unul pentru definirea genului și unul pentru dată Cu toate acestea, deoarece aceste atribute nu sunt independente din punct de vedere statistic, o soluție mai bună ar fi crearea unui model care se antrenează pentru TJ Capitolul Cele mai bune practici avansate de învățare profundă Previziunea de preț Metadate Text descriere Foto Orez Model cu intrări multiple predicții ale ambelor atribute de ieșire - gen și dată Un astfel de model combinat va avea două ieșiri, sau capete (Figura ) Datorită corelației dintre gen și dată, cunoașterea datei poate ajuta modelul să obțină o reprezentare bogată și exactă a spațiului de gen al operelor literare și invers Gen Data Textul povestirii Orez Model cu prize multiple (capete) În plus, multe arhitecturi neuronale dezvoltate recent necesită o rețea neliniară atunci când rețeaua are o structură de graf aciclică direcționată Familia de rețele Inception (dezvoltată de Christian Szegedy și colegii de la Google) , de exemplu, se bazează pe modulele Inception în care intrările sunt procesate de mai multe ramuri convoluționale paralele ale căror ieșiri sunt apoi combinate într-un singur tensor (Figura ) Recent a apărut și o tehnică de adăugare a legăturilor reziduale la model, care a început odată cu apariția familiei de rețele ResNet (dezvoltată de Kaiming He și colegii de la Microsoft) Esența acestei tehnici este reintroducerea reprezentărilor anterioare în flux de date de ieșire prin adăugarea pro Christian Szegedy și colab , "Going Deeper with Convolutions," Conference on Computer Vision and Pattern Recognition ( ), https://arxiv org/ahs/ Kaiming He și colab , "Deep Residual Learning for Image Recognition", Conferința despre Computer Vision and Pattern Recognition ( ), https://arxiv org/abs/ Dincolo de modelul secvenţial: Keras Functional API tensorul de ieșire trecut la un tensor de ieșire mai nou (Figura ), care ajută la prevenirea pierderii de informații în timpul procesării datelor Există, de asemenea, multe alte exemple, cum ar fi rețele de tip grafic Ieșire Intrare Orez Modul de început: Subgraf de nivel cu mai multe ramuri convoluționale paralele Orez Legături reziduale: reintroducerea informațiilor trimise anterioare prin adăugarea la harta caracteristicilor Aceste trei tipuri importante de modele - modele cu mai multe intrări, modele cu mai multe ieșiri și modele de tip grafic - nu pot fi implementate folosind doar clasa de model secvențial din cadrul Keras Cu toate acestea, există o altă modalitate mult mai versatilă și flexibilă de a utiliza Keras - API-ul funcțional Această secțiune detaliază ce este, descrie capacitățile și caracteristicile sale de utilizare Capitolul Cele mai bune practici avansate de învățare profundă Introducere în API-ul funcțional API-ul funcțional vă permite să manipulați direct tensorii și să utilizați nivelurile ca funcții care acceptă și returnează tensori (care este motivul unui astfel de nume - API funcțional): din keras import Intrare, straturi input tensor = Input(shape=( ,)) ◄ Tensor dens = straturi Dense( , activation=' relu ') ◄- Un strat este o funcţie output tensor = dens(input tensor) ◄ Am numit stratul poate accepta I și tensorul de întoarcere Să începem cu un mic exemplu care arată un model secvențial simplu și echivalentul acestuia folosind un API funcțional: din keras models import Sequential , Model din straturi de import keras din keras import Input seq model = Sequential () ◄ Modelul secvenţial deja familiar seq model add(layers Dense( , activation='relu', input shape=( ,))) seq model add(layers Dense( , activation='relu')) seq model add(layers Dense( , activation='softmax')) input tensor = Intrare(forma=( ,)) x = layers Dense( , activation='relu')(input tensor) x = layers Dense( , activation='relu')(x) output tensor = layers Dense( , activation='softmax')(x) Echivalentul său funcțional model = Model(tensor intrare, tensor ieșire) model summaryO - Luați în considerare! Clasa Model transformă tensorii de intrare și de ieșire într-un model Iată ce iese apelul model summaryO: Strat (tip) Formă de ieșire Param # input l (InputLayer) (Niciunul, ) dens l (Dens) (Niciunul, ) dens (Dens) (Niciunul, ) dens (Dens) (Niciunul, ) Total parametri: Parametri antrenabili: Parametri neantrenați: Dincolo de modelul secvenţial: Keras Functional API Singurul lucru care ar putea părea puțin neobișnuit aici este crearea unei instanțe a clasei Model folosind doar tensorii de intrare și de ieșire În culise, Keras extrage toate straturile implicate în transformarea tensorului input tensor în tensor output tensor și le combină într-o structură de date asemănătoare unui grafic - Model Desigur, acest lucru este posibil numai pentru tensorul de ieșire output tensor obținut prin transformări multiple ale tensorului de intrare input tensor Dacă încercați să creați un model din intrări și ieșiri necorelate, veți obține o excepție RuntimeError: >>> unrelated input = Intrare(forma=( ,)) >>> bad model = model = Model(unrelated input,, output tensor) RuntimeError: Graficul deconectat: nu se poate obține valoarea pentru tensor -"Tensor("input l: ", shape=(?, ), dtype=float ) la stratul "input l" Această excepție raportează de fapt că cadrul Keras nu a putut ajunge la input l de la tensorul de ieșire transmis acestuia Compilarea, instruirea și evaluarea unei astfel de instanțe de model arată exact la fel ca atunci când utilizați un model secvenţial: model compile(optimizer='rmsprop', loss='categorical crossentropy')◄ Compilarea import numpy ca np ◄ Generați date simulate pentru antrenament x train = np random random(( , )) y train = np random random(( , )) model fit(x train, y train, epochs= , batch size= ) ◄- scor = model evaluate(x train, y train) ◄ Scorul model Antrenament model pentru epoci Modele cu intrări multiple API-ul funcțional poate fi folosit pentru a crea modele cu intrări multiple De obicei, astfel de modele își îmbină ramurile de intrare la un moment dat folosind un strat capabil să îmbine mai mulți tensori: prin adăugare, îmbinare sau altfel Adesea, acest lucru se face folosind operațiunile de îmbinare implementate în Keras, cum ar fi keras straturi adaugă, keras straturi concatenează, etc Luați în considerare un exemplu de model foarte simplu cu mai multe intrări: un model de întrebare/răspuns Un model tipic de întrebare/răspuns are două intrări: o întrebare în limbaj natural și o bucată de text (cum ar fi un articol de știri) cu informații care trebuie folosite pentru a răspunde la întrebare Pe baza acestor date, modelul trebuie să returneze un răspuns: în cel mai simplu caz, acesta poate fi un răspuns cu un singur cuvânt obținut prin aplicarea clasificatorului softmax la un dicționar predefinit (Fig ) Următorul exemplu demonstrează cum să creați un model folosind API-ul funcțional Acesta creează două ramuri independente, textul de intrare și întrebarea de cod Capitolul Cele mai bune practici avansate de învățare profundă sunt convertite în reprezentări vectoriale; acești vectori sunt apoi combinați și în final se adaugă un clasificator softmax deasupra reprezentării combinate Răspuns Text de ajutor Întrebare Orez Model de întrebare/răspuns Lista Implementarea unui model de întrebare/răspuns cu două intrări folosind un API funcțional din keras models import Model din keras import straturi din keras import Intrare text vocabulary size = question vocabulary size = answer vocabulary size = Textul de intrare este o secvență de numere întregi de lungime variabilă Rețineți că puteți specifica opțional un nume de secvență text input = Iprii( bare=(Moped), dtype='int ', name='text') ◄- embedded text = layers Embedding(text vocabulary sizej )(text input) Conversia textului de intrare într-o secvență de vectori cu dimensiunea text codat = straturi LSTM( )(text încorporat) question input = Iprii( bare=(Moped), Conversia vectorilor într-un singur vector folosind stratul LSTM dtype='int ', nume='întrebare') întrebare încorporată = straturi Încorporare( Aceeași procedură (cu alte instanțe de strat) se repetă pentru întrebare question vocabulary sizej )(question input) întrebare codata = layers LSTM( )(întrebare încorporată) concatenated = layers concatenate([encoded textj encoded question], axa=-l) Combinând întrebarea codificată și textul Dincolo de modelul secvenţial: Keras Functional API răspuns = layers Dense(answer vocabulary size, activation='softmax')(concatenat) model = Model([text input, question input], răspuns) model compile(optimizer='rmsprop', loss='categorical crossentropy', metrics=[' acc ' ]) Instanțierea unui model cu două intrări și o ieșire Adăugarea unui clasificator softmax deasupra Acum se pune problema antrenării unui model cu două intrări Puteți utiliza două API-uri diferite pentru aceasta: puteți transmite modelului o listă de tablouri Numpy sau un dicționar care mapează numele intrărilor în tablourile Numpy Desigur, ultima opțiune este posibilă numai dacă aveți nume definite pentru intrări Lista Transmiterea datelor unui model cu intrări multiple import numpy ca ex num samples = lungime max = Crearea unei matrice Numpy cu date simulate text = ex random randint(l, text vocabulary size, ◄ size=(num samples, max length)) întrebare = np random randint(l, question vocabulary size, size=(num samples, max length)) ◄- Pentru întrebări codificarea directă se aplică mai degrabă decât conversia în numere întregi răspunsuri = ex zeros(shape=(num samples, answer vocabulary size)) indici = np random randint( , answer vocabulary size, size=num samples) pentru i, x în enumerate(răspunsuri): x[indici[i]] = model fit([text, întrebare], answers, epochs= , batch size= ) ◄ - model fit({'text': text, 'intrebare': întrebare}, răspunsuri,! epochs= , batch size= ) Difuzare Trecere de dicționar (posibil numai dacă au fost definite numele de intrare) lista de intrări Modele cu mai multe prize API-ul funcțional poate fi folosit și pentru a crea modele cu ieșiri multiple (sau capete) Cel mai simplu exemplu ar fi o rețea care încearcă să prezică simultan diferite proprietăți ale datelor, cum ar fi preluarea unei secvențe de postări pe rețelele sociale de la o persoană anonimă ca intrare și încercarea de a prezice caracteristicile acelei persoane, cum ar fi vârsta, sexul și nivelul veniturilor (Figura ) Capitolul • Cele mai bune practici avansate de învățare profundă Vârstă Nivel de venit Sex Postări de pe rețeaua de socializare Orez Model de întrebare/răspuns Lista Implementarea modelului cu trei ieșiri folosind API-ul funcțional from keras import layers from keras import Intrare din keras models import Model vocabular size = num income groups = posts input = Input(shape=(Nonej), dtype='int ', name='posts') embedded posts = layers Embedding( , vocabulary size)(posts input) x = layers ConvlD( j , activation='relu') (postări încorporate) x = straturi MaxPoolinglD( )(x) x = straturi ConvlD( j , activation='relu')(x) x = straturi ConvlD( j , activation='relu')(x) x = straturi MaxPoolinglD( )(x) x = straturi ConvlD( j , activation='relu')(x) x = straturi ConvlD( j , activation='relu')(x) x = straturi GlobalMaxPoolinglD()(x) x = straturi Dense( j activation='relu')(x) Rețineți că pentru output-age prediction = layers Dense(l, name='age')(x) I nh straturi sunt nume definite income prediction = layers Dense(num income groupsJ activare='softmax', nume='venit')(x) gender prediction = layers Dense(l, activation='sigmoid', name='gen')(x) model = Model(posts inputj [predicție vârstă, predicție venitj predicție gen]) Este important de reținut că, pentru a antrena un astfel de model, este necesar să se poată seta diferite funcții de pierdere pentru diferite rezultate: de exemplu, determinarea vârstei este o problemă de regresie scalară, dar determinarea genului este o problemă de clasificare binară care necesită o procedură de formare separată Cu toate acestea, deoarece coborârea gradientului necesită minimizare scalară, aceste funcții de pierdere trebuie combinate într-o singură valoare Cel mai simplu mod de a combina pierderile este să le însumăm În Keras, acest lucru se poate face prin trecerea unei liste sau a unui dicționar la funcția de compilare cu diferite obiecte pentru diferite ieșiri; ca urmare, valorile pierderilor vor fi adăugate la valoarea pierderii totale, care va fi minimizată în timpul antrenamentului Dincolo de modelul secvenţial: Keras Functional API Lista Opțiuni de compilare a modelului de ieșire multiple: Funcții de pierdere multiple model compile(optimizer='rmsprop', loss=[ 'mse', 'categorical crossentropy', 'binary crossentmountain']) model compile(optimizer='rmsprop', loss={'age': 'mse', "venit": "categorical crossentropy", "gen": "binary crossentropy"}) Soluție echivalentă (posibilă numai dacă sunt definite numele straturilor de ieșire) Rețineți că contribuțiile dezechilibrate la pierderi vor avea ca rezultat o reprezentare optimizată predominant pentru sarcina cu cea mai mare pierdere, în detrimentul altor sarcini Pentru a corecta această problemă, puteți atribui diferite grade de importanță valorilor pierderilor care contribuie la pierderea totală Acest lucru poate fi util atunci când valorile pierderilor au scări diferite De exemplu, eroarea medie pătratică (MSE) utilizată ca funcție de pierdere în problema de determinare a vârstei ia de obicei o valoare de aproximativ - , în timp ce entropia încrucișată utilizată în problema de determinare a sexului poate fluctua în jurul valorii de , Pentru a echilibra contribuția diferitelor pierderi într-o astfel de situație, puteți atribui o pondere de entropiei încrucișate și o pondere de , estimării MSE Lista Opțiuni de compilare a modelelor de ieșire multiple: Ponderea pierderilor model compile(optimizer='rmsprop', loss=[ 'mse', 'categorical crossentropy', 'binary crossentmountain'], loss weights=[ , , ]) model compile(optimizer='rmsprop', loss={'age': 'mse', "venit": "categorical crossentropy", "gen": "binary crossentropy"}, loss weights={"varsta": , , "venit": , "sex": }) Soluție echivalentă (posibilă numai dacă sunt definite numele straturilor de ieșire) La fel ca în cazul modelelor care au intrări multiple, puteți transmite date de antrenament modelului fie ca o listă de tablouri Numpy, fie ca un dicționar cu numele lor Lista Transmiterea datelor la un model cu ieșiri multiple model fit(posts, [age targets, income targets, epochs= , batch size= ) model fit(postări, {'age': age targets, 'income': income targets, 'genre': gender targets}, epochs= , batch size= ) gender targets], Soluție echivalentă (posibilă numai dacă sunt definite numele straturilor de ieșire) Se presupune că age targets, ipsoshe targets și gender targets sunt matrice Numpy Capitolul Cele mai bune practici avansate de învățare profundă Grafice de nivel aciclice direcționate Folosind API-ul funcțional, puteți nu numai să creați modele cu intrări și ieșiri multiple, ci și să proiectați rețele cu topologii interne complexe Cadrul Keras vă permite să creați rețele neuronale organizate ca grafice de straturi aciclice direcționate arbitrar Specificația aciclică este foarte importantă: astfel de grafice nu au căi închise Tensorul x nu poate servi ca intrare pentru unul dintre straturile care generează x Singurele bucle de procesare valide (adică legăturile recurente) sunt buclele din straturi recurente Există mai multe componente tipice ale rețelelor neuronale implementate sub formă de grafice Cele mai faimoase dintre acestea sunt modulele Inception și residual links Să vedem cum sunt implementate ambele în Keras pentru a înțelege mai bine cum pot fi create grafice de straturi folosind API-ul funcțional Module de inițiere Numele Inception se referă la arhitectura populară a rețelelor neuronale convoluționale; a fost dezvoltat de Christian Szegedy și colegii săi de la Google în - , inspirat de arhitectura de rețea pe o rețea dezvoltată mai devreme Constă dintr-un teanc de module care arată ca rețele mici și independente, împărțite în mai multe ramuri paralele În cea mai simplă formă, modulul Inception are trei până la patru ramuri, începând cu o convoluție x , urmată de o convoluție x și terminând cu unirea caracteristicilor extrase O astfel de organizație ajută rețeaua să extragă caracteristicile spațiale și ale canalului separat, ceea ce oferă o eficiență mai mare decât atunci când sunt extrase împreună Sunt posibile, de asemenea, versiuni mai complexe ale modulului Inception, care includ de obicei operațiuni de îmbinare, diferite dimensiuni de convoluție spațială (de exemplu, * în loc de * în unele ramuri) și ramuri de convoluție non-spațială (adică, incluzând doar o convoluție x ) Un exemplu de astfel de modul, preluat din Inception V , este prezentat în fig SCOPUL PACHETELOR x Știți deja că convoluțiile extrag modelele spațiale din jurul fiecărei celule din tensorul de intrare și le aplică aceleași transformări Cazul limită este atunci când șabloanele care trebuie preluate constau dintr-o singură celulă În acest caz, operația de convoluție este echivalentă cu procesarea vectorului fiecărei celule cu stratul Dens: calculează caracteristicile care amestecă informațiile din canalele din tensorul de intrare, dar nu amestecă informațiile distribuite în spațiu (pentru că procesează doar câte o celulă de fiecare dată) Astfel de convoluții *■ corvlcLI {•! embod ts cftp yu *shie •-* c*p fcy vtf ue -* ciip dv vatue | Orez TensorBoard: TensorFlow Operation Graph În special, Keras acceptă și un alt mod mai curat de a reprezenta modelele ca grafice de straturi în loc de grafice de operare TensorFlow: utilitarul keras utilitati plot model Pentru a-l folosi, trebuie să instalați bibliotecile Python pydot și pydot-ng, precum și biblioteca graphviz Să vedem ce poate face acest utilitar: din keras utils import plot model plot model(model , to file='model png') Acest apel va crea imaginea PNG prezentată în Fig Capitolul Cele mai bune practici avansate de învățare profundă Orez Imagine a modelului sub forma unui grafic layer, creat de utilitarul plot model Cu acest utilitar, puteți afișa și informații despre forma straturilor într-un grafic Următorul exemplu creează o imagine cu topologia modelului prin transmiterea parametrului show shapes la utilitarul plot model (Figura ): din keras utils import plot model plot model(model, show shapes=True, to file='model png') Rezumând □ Apelurile Keras oferă o modalitate ușoară de a urmări ceea ce se întâmplă în interiorul unui model pe măsură ce se antrenează și de a lua automat acțiuni în funcție de starea acestuia □ Dacă TensorFlow este folosit ca motor de procesare a tensorului de nivel scăzut, devine posibil să utilizați TensorBoard, un instrument excelent pentru vizualizarea proceselor care au loc într-un model într-o fereastră de browser Pentru a-l folosi cu modelele Keras, trebuie să adăugați un apel invers TensorBoard la modele Beneficiind la maximum de de modele Orez Imagine a modelului cu informații despre forma straturilor Profitând din plin din modele Construirea orbește de arhitecturi este o abordare bună atunci când aveți nevoie doar de totul pentru a funcționa În această secțiune, vom face un pas de la "doar lucrul" la "modele avansate care câștigă competiții de învățare automată" și vom analiza câteva tehnici pentru construirea modelelor moderne de învățare profundă Modele de arhitecturi îmbunătățite În secțiunea anterioară, ne-am uitat la unul dintre cele mai importante modele de design: relațiile reziduale Cu toate acestea, mai există două modele de care ar trebui să fii conștient: normalizarea și convoluția separabilă în profunzime Aceste modele sunt deosebit de potrivite pentru construirea de rețele neuronale convoluționale profunde de înaltă calitate, dar nu sunt neobișnuite în multe alte tipuri de arhitecturi Capitolul Cele mai bune practici avansate de învățare profundă Normalizarea loturilor Normalizarea este o categorie largă de tehnici care urmăresc să facă similaritatea diferitelor eșantioane mai vizibilă pentru un model de învățare automată, ceea ce ajută modelul să extragă și să generalizeze din date noi Ați văzut deja cea mai comună formă de normalizare de mai multe ori în această carte: centrarea datelor la zero prin scăderea mediei și acordarea unei abateri standard unitare prin împărțirea la abaterea sa standard De fapt, o astfel de normalizare presupune că datele urmează o distribuție normală (sau legea Gauss), centrând și reducând această distribuție la varianța unitară: date normalizate = (date - np mean(date, axa= )) / np std(data, axis= ) În exemplele anterioare, normalizarea a fost efectuată înainte ca datele să fie transmise modelelor Cu toate acestea, normalizarea trebuie făcută după fiecare transformare efectuată de rețea: chiar dacă datele de intrare într-o rețea Dense sau Conv D au o medie de și varianță unitară, nu există niciun motiv să credem că același lucru se poate spune și despre datele de ieșire Normalizarea lotului este un tip de strat (BatchNormalization în Keras) introdus în de Sergey Loffe și Christian Szegedy ; poate normaliza în mod adaptiv datele chiar dacă media și varianța se modifică în timpul antrenamentului Principiul său de funcționare se bazează pe calculul mediei mobile exponențiale și pe variația datelor observate în timpul procesului de antrenament Scopul principal al normalizării loturilor este de a ajuta gradientul să se propage ca legături reziduale și de a permite crearea de rețele mai profunde Unele rețele profunde pot fi antrenate numai dacă includ mai multe straturi BatchNormalization De exemplu, straturile BatchNormalization sunt utilizate pe scară largă în multe dintre arhitecturile avansate de rețele neuronale convoluționale incluse în Keras, cum ar fi ResNet , Inception v și Xception De obicei, un strat BatchNormalization este utilizat după un strat convoluțional sau complet conectat: conv model add(layers Conv D( , , activation='relu')) conv model add(layers BatchNormalization()) ◄ - După layerConv dense model add(layers Dense( , activation='relu')) dense model add(layers BatchNormalization()) ◄ După stratul dens Stratul BatchNormalization preia un argument de axă care specifică axa caracteristică de normalizat Acest argument este implicit - , Sergey Loffe și Christian Szegedy, "BatchNormalization: Accelerating DeepNetworkTraining by Reducing Internai Covariate Shift", Proceedings of the nd Internațional Conference on Machine Leaming ( ), https://arxiv rg/abs/l Beneficiind la maximum de de modele care corespunde ultimei axe din tensorul de intrare Aceasta este valoarea corectă atunci când straturile Dens, ConvlD, Recurrent și Conv D sunt utilizate cu "channels last" în argumentul data format Dar în straturile Conv D cu "channels first" în argumentul data format, axa caracteristică este axa cu index ; prin urmare, în astfel de cazuri, stratului BatchNormalization ar trebui să i se treacă numărul ca argument al axei RENORMALIZAREA LOTULUI Nu cu mult timp în urmă, în , Sergey Yoffe a propus o metodă mai avansată decât normalizarea obișnuită a loturilor - metoda de renormalizare a loturilor Oferă avantaje clare față de normalizarea loturilor, fără costuri generale suplimentare Este prea devreme pentru a spune în acest moment dacă va înlocui normalizarea lotului, dar cred că este pe deplin posibil Mai recent, Gunter Klambauer și colegii au introdus rețele neuronale cu auto-normalizare care permit păstrarea datelor într-o stare normalizată după trecerea prin orice strat Dens prin utilizarea funcțiilor speciale de activare (selu) și inițializare (lecun normal) Această schemă pare destul de interesantă, dar până acum este limitată la rețelele complet conectate, iar utilitatea ei nu a fost încă confirmată de cercetări ample Convoluții separate după adâncime Ce ai crede dacă aș spune că există un strat care poate fi folosit în locul lui Conv D și cu care să faci modelul mai ușor (cu greutăți mai puțin antrenabile) și mai rapid (cu mai puține operații cu numere reale), precum și să îmbunătățești calitatea rezolvarea problemei cu câteva puncte procentuale? Stratul de convoluție separată în profunzime (SeparableConv D) are toate calitățile enumerate Acest strat convoluează spațial fiecare canal din datele de intrare în mod individual înainte de a amesteca canalele de ieșire prin convoluție punct cu punct (convoluție > max loss: break print(' Valoarea pierderii la', i, valoarea pierderii) x += pas * grad values întoarce x Această funcție realizează numărul dat de iterații de ascensiune a gradientului În cele din urmă, algoritmul actual DeepDream Mai întâi, să definim o listă de scale (numite și octave) la care vor fi procesate imaginile Fiecare următor este de , ori mai mare decât precedentul ( % mai mare): să începem prin a procesa o imagine mică și apoi să o creștem treptat (Fig ) Octava Orez Procesul DeepDream: scale de procesare spațială secvențială (octave) și reintroducerea detaliilor pe măsură ce măriți Pentru fiecare scară ulterioară, de la mai mică la mai mare, se efectuează o ascensiune cu gradient pentru a maximiza funcția de pierdere definită anterior După fiecare ciclu de urcare, imaginea rezultată este mărită cu % Pentru a evita pierderea detaliilor imaginii după fiecare zoom (rezultând efecte neclare sau cu gresie), puteți folosi un truc simplu: după fiecare zoom, reîncorporați detaliul pierdut în imagine, ceea ce este posibil știind cum ar trebui să arate imaginea originală când măriți Având în vedere o imagine mică la dimensiunea și o imagine mare la dimensiunea L, este posibil să se calculeze diferența dintre imaginea originală la dimensiunea L și imaginea originală la dimensiunea , redusă - această diferență cuantifică detaliul pierdut la trecerea de la dimensiunea la marimea L Visul adânc Lista Efectuarea ascensiunii în gradient prin secvența de scară Schimbând hiperparametrii, puteți obține efecte noi Dimensiunea treptei de escaladare în gradient import numpy ca n p pas = , - num octave = octave scale iterații = = , ◄ Numărul de scale pe care se realizează ascensiunea în gradient - Relația dintre scalele adiacente Numărul de trepte de urcare pentru fiecare scară pierdere maximă Dacă valoarea pierderii crește peste , trebuie să anulăm procesul de urcare în gradient pentru a evita artefactele urâte cale imagine base=' Specificați aici calea către fișierul imagine img = preprocess image(base image path) Încărcați imaginea a B r în matricea Numpy (funcția definită în Lista ) Pregătirea unei liste de tupluri de formă care definesc diferite scări pentru a efectua ascensiunea în gradient original shape = img shape[l: ] successive shapes = [original shape] pentru i în interval (lj num octave): shape = tuple([int(dim / (octave scale ** i)) for dim in original shape]) successive shapes append(shape) forme succesive = forme succesive[ Inversarea listei de tupluri - ] ◄ - formă astfel încât acestea să urmeze în ordinea crescătoare a scării h Reducerea unei imagini dintr-o matrice Numpy la cea mai mică scară original img = np copy(img) shrunk original img = resize img(imgj successive shapes[ ]) pentru forma în forme succesive: print('Se procesează forma imaginii', formă) img = resize img(forma imgj) ◄ - Măriți imaginea img = gradient ascent(imgj iterații=iterații pas=pas, max loss=max loss) Efectuați o ascensiune în degrade cu redimensionarea imaginii upscaled shrunk original img = resize img(shrunk original imgJ shape) same size original = resize img(original imgJ shape) lost detail = same size original - upscaled shrunk original img ◄- img += detaliu pierdut ◄ Reintroduceți detaliile shrunk original img = resize img(original imgJ shape) save img(imgj fname='dream at scale ' + str(shape) + ' png') save img(imgj fname='final dream png') Calculul unei versiuni de înaltă calitate a imaginii originale cu dimensiuni date Diferența dintre cele două imagini este detaliul pierdut din cauza scalării Capitolul Învățare profundă generativă Codul din Lista - folosește următoarele funcții de ajutor care se explică de la sine care manipulează tablourile Numpy Acestea necesită instalarea pachetului SciPy Lista Funcții secundare import scipy din keras preprocessing import imagine def resize img(img, dimensiune): img = np copy(img) factori = ( , float(size[ ]) / img shape[l], float(dimensiune[l]) / img shape[ ], ) return scipy ndimage zoom(img, factori, order=l) def def def save img(img, fname): pil img = deprocess image(np copy(img)) scipy mise imsave(fname, pil img) preprocess image(image path): ◄- img = image load img(image path) img = image img to array(img) img = np expand dims(img, axis= ) img = inception v preprocess input(img) return img deprocess image(x): O funcție de ajutor care deschide o imagine, o redimensionează și o convertește într-un tensor pentru procesare în Inception v O funcție de ajutor care convertește un tensor într-o imagine validă dacă K image data format() == 'channels first': x = x reformă(( , x shape[ ], x shape[ ])) x = x transpune(( , , )) altceva: x = x reforma((x forma[l], x /= x += , x *= x shape[ ], )) x = np clip(x, , ) astype('uint ') Anularea preprocesării efectuată prin apelarea inception v preprocess input întoarce x NOTĂ Rețeaua originală Inception V a fost instruită să recunoască modele pe imagini de x , așa că, având în vedere că procesul realizează o reducere a imaginii printr-un factor rezonabil, implementarea DeepDream produce rezultate mai bune pentru imagini între x și x Cu toate acestea, puteți utilizați același cod pentru a procesa imagini de orice dimensiune, cu orice raport de aspect Începând cu o fotografie făcută în dealurile joase dintre Golful San Francisco și campusul Google, am obținut rezultatul prezentat în Fig Visul adânc Orez Rezultatul procesării imaginii prin implementarea algoritmului DeepDream Orez Aplicarea diferitelor configurații DeepDream la o imagine Capitolul • Învățare profundă generativă Vă recomandăm insistent să încercați diferite setări ale straturilor care sunt utilizate pentru a determina pierderea Straturile de sub rețea conțin mai multe reprezentări locale, mai puțin abstracte și generează mai multe modele geometrice Straturile de mai sus generează efecte care pot recunoaște cele mai comune obiecte din setul ImageNet, cum ar fi ochii de câine, pene de pasăre etc Puteți randomiza parametrii din dicționarul layer contributions pentru a evalua rapid multe combinații diferite de straturi Pe fig Figura arată gama de rezultate obținute folosind diferite configurații de straturi din imaginea chiflelor de casă Rezumând □ Algoritmul DeepDream constă dintr-o rețea convoluțională care funcționează invers și generează date de intrare pe baza reprezentărilor primite ca urmare a antrenamentului □ Rezultatele sunt amuzante și amintesc de halucinațiile vizuale care apar la persoanele care suferă de deficiență vizuală a cortexului cerebral □ Rețineți că acest proces nu este specific modelării imaginii sau chiar rețelelor convoluționale Poate fi aplicat vorbirii, muzicii etc Transfer de stil neuronal Pe lângă DeepDream, o altă dezvoltare importantă în domeniul modificării imaginii folosind deep learning este transferul de stil neural, implementat de Leon Gatys și colegii săi în vara anului De la începuturile sale, algoritmul Neural Style Transfer a suferit multe îmbunătățiri, a generat multe variații și a găsit utilizare în multe aplicații de fotografie pentru smartphone-uri Pentru simplitate, această secțiune se concentrează pe formularea din articolul original Transferul stilului neuronal constă în aplicarea stilului de imagine principal la imaginea țintă, păstrând în același timp conținutul acelei imagini țintă Un exemplu de transfer de stil este prezentat în Fig În acest context, stilul se referă în principal la texturi, palete de culori și modele vizuale la diferite scări spațiale, în timp ce conținutul se referă la macrostructura de nivel înalt a unei imagini De exemplu, liniile circulare albastru-galben din Fig corespund stilului (ca probă, utilizați Leon A Gatys, Alexander S Ecker și Matthias Bethge, "A Neural Algorithm of Artistic Style", arXiv ( ), https://arxiv org/abs/ Stilul de transmisie neuronală Se folosește pictura lui Vincent van Gogh "Noaptea înstelată", în timp ce clădirile din fotografia realizată de fotograful Tubingen sunt conținutul Conținutul imaginii vizate Exemplu de stil Orez Exemplu de transfer de stil Imagine combinată Ideea transferului de stil, strâns legată de crearea texturii, a fost alimentată de mult în comunitatea de procesare a imaginilor înainte de a deveni un algoritm de transfer de stil neuronal în Cu toate acestea, după cum se dovedește, implementările de transfer de stil bazate pe învățarea profundă sunt de neegalat în progresele anterioare, folosind tehnici clasice de viziune computerizată, și astfel au generat un boom uimitor în aplicațiile artistice de viziune computerizată Implementarea transferului de stil se bazează pe aceeași idee care este centrală pentru toți algoritmii de învățare profundă: definiți o funcție de pierdere pentru a defini un obiectiv de atins și îl minimizați Știi ce vrei: păstrează conținutul imaginii originale și trece stilul imaginii de referință Cu conținutul și stilul definite matematic, funcția adecvată de pierdere de minimizare poate fi scrisă ca: pierdere = distanta(stil(imagine de referinta) - stil(imagine generata)) + distanta(continut(imagine originala) - continut(imagine generata)) Aici, distanța este o funcție a unei norme, cum ar fi norma G , conținutul este o funcție care preia o imagine și calculează o reprezentare a conținutului acesteia, iar stilul este o funcție care preia o imagine și calculează o reprezentare a stilului acesteia Minimizarea acestei funcții de pierdere are ca rezultat stilul (imaginea generată) care se apropie de stilul (imaginea de referință) și conținutul (imaginea generată) se apropie de conținutul (imaginea originală), realizând astfel transferul de stil așa cum l-am definit Observația fundamentală făcută de Gatis și colegii este că rețelele neuronale convoluționale profunde fac posibilă definirea matematică a funcțiilor de stil și conținut Să vedem cum merge Caracteristica de pierdere a conținutului După cum știți deja, activările din straturile inferioare din rețea conțin informații locale despre imagine, în timp ce activările din straturile superioare conțin din ce în ce mai multe Capitolul Învățare profundă generativă informație globală, abstractă Cu alte cuvinte, activările diferitelor straturi ale rețelei convoluționale reprezintă descompunerea conținutului imaginii la diferite scări spațiale Prin urmare, se poate aștepta ca conținutul unei imagini mai globale și mai abstracte să fie capturat de reprezentări ale straturilor superioare ale rețelei În consecință, un bun candidat pentru o funcție de pierdere de conținut este norma b dintre activările stratului superior din rețeaua convoluțională preantrenată calculate din imaginea țintă și cele ale aceluiași strat calculate din imaginea generată Acest lucru asigură, așa cum se vede din stratul superior, că imaginea generată va arăta similar cu imaginea țintă inițială Presupunând că straturile superioare ale rețelei convoluționale văd de fapt conținutul imaginilor de intrare, atunci reducerea la minimum a acestei caracteristici poate fi văzută ca o modalitate de a păstra conținutul imaginii Funcția de pierdere a stilului Funcția de pierdere a conținutului folosește un singur strat superior, dar funcția de pierdere a stilului, așa cum a fost definită de Gatis și colegii, folosește mai multe straturi ale rețelei convoluționale: scopul său este să surprindă aspectul stilului imaginii de referință nu în unul, ci toate scările spaţiale alocate de reţeaua convoluţională Ca o funcție de pierdere a stilului, Gatis și colab folosesc matricea Gram a activărilor de strat: produsul interior al hărților de caracteristici ale unui strat dat Acest produs interior poate fi interpretat ca o matrice de corelații între caracteristicile stratului Corelațiile captează statistici ale modelelor la o anumită scară spațială care se potrivesc empiric cu texturile găsite la acea scară Prin urmare, reducerea la minimum a funcției de pierdere a stilului are ca scop menținerea unor corelații interne similare între activările diferitelor straturi ale imaginii eșantionului și imaginea generată Acest lucru, la rândul său, asigură că texturile găsite la diferite scări spațiale vor arăta la fel în imaginea de referință și imaginea generată Mai simplu spus, o rețea convoluțională pre-antrenată poate fi utilizată pentru a determina pierderea și voința □ Păstrați conținutul prin menținerea similitudinii de activare a stratului superior între conținutul țintă și imaginea generată Reteaua convolutionala trebuie sa "vada" ambele imagini - tinta si cea generata - ca continand acelasi lucru; □ păstrează stilul, păstrând asemănarea corelațiilor în activările tuturor straturilor, inferioare și superioare Corelațiile caracteristicilor captează texturi", descrise Stilul de transmisie neuronală Non-eșantionul și imaginea generată trebuie să aibă aceleași texturi la scări spațiale diferite Acum luați în considerare implementarea algoritmului original de transfer neuronal în stil folosind Keras După cum veți vedea mai jos, are multe în comun cu implementarea DeepDream prezentată în secțiunea anterioară Stilul neural care trece în Keras Transferul stilului neuronal poate fi implementat folosind orice rețea convoluțională antrenată Aici folosim rețeaua VGG folosită de Gatis și colegii VGG este o versiune simplificată a rețelei VGG introdusă în Capitolul , cu trei straturi convoluționale Iată cum arată întregul proces în termeni generali: Configurați o rețea care calculează activările stratului VGG simultan pentru imaginea eșantion, imaginea țintă și imaginea generată Activările calculate din toate cele trei imagini sunt utilizate pentru a determina funcția de pierdere generală descrisă mai sus, care va fi minimizată pentru a obține efectul de transfer de stil Reglați procedura de urcare în gradient pentru a minimiza această funcție de pierdere Mai întâi, să definim căile către imaginea eșantion și imaginea țintă Pentru a ne asigura că dimensiunile imaginilor procesate sunt compatibile (dimensiunile foarte diferite fac dificilă transmiterea stilului), le vom reduce la o înălțime totală de de pixeli Lista Definiția initial variables Calea către imaginea de transformat din keras preprocessing image import load imgj img to array target image path = 'img/portrait jpg' style reference image path = 'img/transfer style reference jpg'-^ - Căi de imagine widthj height = load img(target image path) size img height = img width = int(lățime * img height / înălțime) stil Dimensiunile imaginii generate Vom avea nevoie de câteva funcții de ajutor pentru a încărca, preprocesa și post-procesează imagini înainte de a încărca imagini în rețeaua VGG și după ce le scoatem din rețea Capitolul Învățare profundă generativă Lista Funcții secundare import numpy ca np din keras applications import vggl def preprocess image(image path): img = load img(image pathJ target size=(img heightj img width)) img = img to array(img) img = np expand dims(axa imgj= ) img = vggl preprocess input(img) intoarce img def deprocess image(x): x[:, ■> ] += , x[:, ■> ] += , x[:, ■> ] += , Centrarea la zero prin eliminarea valorii medii a pixelilor din ImageNet Aceasta inversează conversia făcută de vggl preprocess input x = x[:, ::- ] x = ex ciip(xd , ) astype('uint ') return x Convertește imaginile din BGR în RGB De asemenea, face parte din ordinea inversă vggl preprocess input Configurați rețeaua VGG Ia ca intrare un lot de trei imagini: o imagine cu un eșantion de stil, o imagine țintă și un gol unde va fi plasată imaginea generată Un spațiu liber este un tensor simbolic ale cărui valori sunt matrice Numpy externe Imaginea de referință și imaginea țintă sunt ambele statice și, prin urmare, sunt definite ca K constant, în timp ce valorile din stub-ul de imagine generat se vor schimba în timp Lista Încărcarea unei rețele VGG preantrenate și aplicarea acesteia la trei imagini Spațiul gol în care imaginea generată va fi plasată din backend-ul de import ca target image = K constant(preprocess image(target image path)) style reference image = K constant(preprocess image(style reference image path)) combinație imagine = K placeholder((l , img heightj img widthj )) ◄ input tensor = K concatenate([target imagej Concatenate trei style reference imagej imagini combine image], axa= ) într-un singur lot model = vggl VGG (input tensor=input tensorjweights='imagenet', include top=False) print('Modelul încărcat ') Proiectarea unei rețele VGG cu un lot de trei imagini de intrare Modelul va fi încărcat cu greutăți obținute ca urmare a antrenamentului pe setul ImageNet Stilul de transmisie neuronală Acum definim funcția de pierdere a conținutului, care va garanta similaritatea reprezentărilor țintei și a imaginilor generate în stratul superior al rețelei VGG Lista Caracteristica de pierdere a conținutului def content loss(bază, combinație): returnează K sum(K pătrat(combinație - bază)) Urmează funcția de pierdere a stilului Utilizează o funcție de ajutor pentru a calcula matricea Gram din matricea de intrare: matricea de corelații găsite în matricea caracteristică originală Lista Funcția de pierdere a stilului def gram matrix(x): caracteristici = K baisch G aiien(K regti e bitep Iop (x, ( , , ))) gram = K dot(featureSj K transpose(caracteristici)) returnează gramul def style loss(style combination): S = matrice gramatică(stil) C = matrice gramă(combinație) canale = dimensiune = img height * img width returnează K sum(K pătrat(S - C)) / ( * (canale ** ) * (dimensiune ** )) La aceste două componente de pierdere se adaugă o a treia: funcția de pierdere de variație totală, care operează pe pixelii imaginii generate Stimulează integritatea spațială a imaginii generate, ceea ce evită apariția unui efect de mozaic Poate fi interpretat ca o regularizare a pierderilor Lista Funcția de pierdere a variației totale def total variation loss(x): a = K pătrat( x[:d :img height - , :img width - , :] - x[:d :, :img width - d :]) b = K pătrat( x[:d :img height - , :img width - , :] - x[:d :img height - , :, :]) returnează K sum(K pow(a + b, , )) Funcția de pierdere de care avem nevoie pentru a minimiza returnează media ponderată a acestor trei componente Pentru a calcula pierderea de conținut, se folosește un singur strat superior b oc conv , iar pentru a calcula pierderea de conținut se folosește o listă de straturi, inclusiv straturile inferioare și superioare Pierderea totală din variație se adaugă la final Capitolul Învățare profundă generativă În funcție de imaginile pe care le utilizați cu conținutul țintă și modelul de stil, este posibil să doriți să ajustați factorul content weight (determină contribuția pierderii de conținut la pierderea totală) O valoare mai mare content weight va face imaginea generată mai asemănătoare cu imaginea țintă Lista Funcția de pierdere a variației totale Dicționar de mapare a numelor straturilor la tensori de activare outputs dict = dictdXlayer name, content layer = 'block conv ' style layers = ['blockl convl', "block convl", "block convl", "block convl", 'block convl'] total variation weight = le- style weight = content weight = , layer output) pentru layer in Stratul folosit pentru calculul pierderii de stil Greutăți pentru calcularea mediei ponderate asupra componentelor pierderii model straturi]) ◄- Stratul folosit pentru a calcula pierderea de conținut Valoarea pierderii este determinată prin adăugarea tuturor componentelor la această variabilă pierdere = K variabilă( ) - layer features = outputs dict[content layer] target image features = layer features[ , :, :, :] combine features = layer features[ , :, :, :] pierdere += content weight * content loss(target image featuresj combination features) Adăugarea pierderii de conținut pentru layer name în style layers: ◄ layer features = outputs dict[layer name] style reference features = layer features[l, :, :, :] combinație features = layer features[ , :, :, :] sl = style loss(style reference featuresj combinaison features) pierdere += (style weight / len(style layers)) * sl Adăugarea de pierderi de stil pentru fiecare nivel țintă pierdere += total variation weight * total variation loss(combination image) ◄- Adăugarea unei pierderi de variație totală În cele din urmă, să setăm procesul de ascensiune în gradient În lucrarea originală a lui Gatis, optimizarea se face folosind algoritmul L-BFGS, așa că îl folosim și aici Aceasta este o diferență cheie față de exemplul DeepDream din Secțiunea O implementare a algoritmului L-BFGS este deja inclusă în pachetul SciPy, dar are două limitări minore: □ necesită ca funcția de pierdere și valorile gradientului să fie transmise ca două funcții separate; Stilul de transmisie neuronală □ poate fi aplicat doar vectorilor plati, în timp ce folosim o matrice de imagini D Ar fi ineficient să se calculeze în mod independent valorile pierderii și gradientului, deoarece asta ar implica o mulțime de calcule redundante; procesul de calcul va încetini cu aproape jumătate față de cazul când aceste cantități sunt calculate împreună Pentru a ocoli această problemă, să definim o clasă Evaluator care calculează în același timp valorile de pierdere și gradient, care va returna valoarea pierderii la primul acces și va stoca în cache gradienții pentru re-invocare Lista Pregătirea procedurii de coborâre în gradient Obținerea gradienților imaginii generate în raport cu pierderea grads = K gradienti(pierdere, imagine combinatie)[ ] - len(x train) - batch size: = dacă pasul % == : ◄ - Salvarea imaginilor (la fiecare de pași) gan save weights('gan h ') ◄ - Salvarea greutăților modelului print('pierdere discriminator:', d loss print('pierdere adversar:', a loss) Ieșire metrică img = image array to img(generated images[ ] * , scale=False) img save(os path join(save dir, 'generated frog' + str(pas) + ' png')) img = image array to img(real images[ ] * , scale=False) img save(os path join(save dir, 'real frog' + str(pas) + ' png')) Salvarea unei imagini reale pentru comparație Construiți etichete care spun întotdeauna "acestea sunt imagini reale" (aceasta este o minciună!) Salvarea unei imagini generate Introducere în rețelele adversare generative În timpul antrenamentului, puteți vedea că pierderile rețelei adversare cresc semnificativ, iar pierderile discriminatorului tind la zero - discriminatorul poate fi într-o poziție dominantă asupra generatorului În acest caz, încercați să reduceți rata de învățare a discriminatorului și să creșteți factorul de decimare al acestuia Orez Munca discriminatorului: pe fiecare rând sunt două imagini - false, generate de rețeaua GAN, și una reală, preluată din setul de antrenament Le poți deosebi? (Imagini reale în coloane, de la stânga la dreapta: mijloc, sus, jos și mijloc ) Rezumând □ Rețeaua generativă contradictorie este formată din două rețele: generator și discriminator Discriminatorul este antrenat să distingă imaginile generate de generator de cele reale din setul de antrenament, iar generatorul este antrenat să păcălească discriminatorul Este de remarcat faptul că generatorul nu vede deloc imagini din setul de antrenament; toate informațiile pe care le deține provin de la discriminator □ Rețelele adverse generative sunt dificil de antrenat deoarece antrenamentul GAN este un proces dinamic, diferit de procesul obișnuit de coborâre în gradient pe un peisaj de pierderi fix Pentru o învățare corectă Capitolul Învățare profundă generativă GAN-urile trebuie să folosească o serie de trucuri euristice și, de asemenea, să acorde multă atenție setărilor □ Rețelele generative adverse au potențialul de a produce imagini foarte realiste Cu toate acestea, spre deosebire de autoencoderele variaționale, spațiul latent pe care îl produc nu are o structură continuă bine definită și, prin urmare, este posibil să nu fie potrivite pentru unele aplicații practice, cum ar fi editarea imaginilor folosind vectori conceptuali Scurt rezumat al capitolului □ Prin aplicarea învățării profunde la creativitate, rețelele neuronale profunde au depășit adnotarea conținutului existent și au început să-și genereze propriul conținut În acest capitol ați învățat: • Cum se generează secvențe de date câte un element Această tehnică poate fi folosită pentru a crea versuri, precum și melodii, notă cu notă și orice alte asemenea serii cronologice • Cum funcționează algoritmul DeepDream: prin maximizarea activărilor stratului de rețea convoluțională prin ascensiune în gradient în spațiul de intrare • Cum să implementați transferul de stil atunci când combinați imagini cu conținut țintă și un șablon de stil și obțineți rezultate interesante • Ce sunt rețelele adverse generative și autoencoderele variaționale, cum să le folosiți pentru a genera imagini noi și cum vectorii conceptuali din spațiul latent pot fi utilizați pentru a edita imagini □ Aceste câteva metode acoperă doar elementele de bază ale acestei zone cu creștere rapidă Mai ai multe de învățat - învățarea profundă generativă este demnă de o carte proprie Concluzie Acest capitol acoperă următoarele subiecte: z lecții importante din această carte; z limitările învățării profunde; z viitorul deep learning, machine learning și AI; z resurse pentru studii ulterioare și utilizare la locul de muncă Aproape ați ajuns la sfârșitul cărții Acest capitol final rezumă și recapitulează conceptele de bază, dar îți va lărgi orizonturile dincolo de conceptele relativ simple la care ai fost introdus A cunoaște învățarea profundă și AI este o călătorie, iar sfârșitul acestei cărți este doar primul pas pe parcurs Vreau să mă asigur că înțelegeți acest lucru și că sunteți bine pregătit să mergeți mai departe pe cont propriu În primul rând, vom arunca o privire la tot ceea ce trebuie să scoți din această carte Acest lucru vă va ajuta să periați unele dintre conceptele pe care le-ați învățat deja Apoi ne uităm la unele dintre limitările cheie ale învățării profunde Pentru a utiliza corect un instrument, trebuie să-i cunoașteți nu numai capacitățile, ci și dezavantajele sale În concluzie, voi schița câteva idei speculative despre dezvoltarea viitoare a domeniului deep learning, machine learning și inteligență artificială (AI) Acest lucru ar trebui să fie de interes pentru cei care doresc să facă cercetări de bază Capitolul se încheie cu o listă scurtă de resurse și strategii pentru a afla mai multe despre AI și a afla despre cele mai recente evoluții Capitolul Concluzie Scurtă prezentare generală a conceptelor cheie Această secțiune rezumă principalele concluzii din această carte Dacă aveți nevoie de o reîmprospătare rapidă cu tot ce ați învățat aici, citiți aceste câteva pagini Diferite abordări ale AI În primul rând, învățarea profundă nu este sinonimă cu AI sau chiar cu învățarea automată Inteligența artificială este un domeniu larg de lungă durată, care poate fi definit ca "orice încercare de a automatiza procesele cognitive", cu alte cuvinte, automatizarea gândirii Aceasta variază de la ceva foarte simplu, cum ar fi foile de calcul Excel, până la ceva foarte complex, cum ar fi roboții umanoizi care pot merge și vorbesc Învățarea automată este o ramură specifică a AI care își propune să dezvolte automat programe (numite modele) bazate exclusiv pe date de antrenament Acest proces de transformare a datelor într-un program se numește învățare Ideea de învățare automată s-a născut cu mult timp în urmă, dar dezvoltarea sa a început abia în anii Învățarea profundă este una dintre numeroasele ramuri ale învățării automate în care modelele sunt reprezentate de lanțuri lungi de funcții geometrice aplicate una după alta Aceste operațiuni sunt organizate în module numite straturi sau niveluri, modelele de învățare profundă sunt de obicei formate ca un teanc de straturi sau, mai general, un grafic de straturi Straturile sunt parametrizate prin greutăți care sunt calculate în timpul procesului de învățare Cunoașterea modelului este stocată în greutățile sale, iar procesul de învățare este găsirea celor mai bune valori pentru aceste greutăți Deși învățarea profundă este doar una dintre multele abordări ale învățării automate, nu este același lucru cu alte abordări Învățarea profundă este o descoperire de succes Si de aceea Ceea ce face învățarea profundă diferită de alte abordări de învățare automată În doar câțiva ani, învățarea profundă a făcut progrese uriașe în rezolvarea unei game largi de sarcini care anterior erau percepute ca foarte dificile pentru computere, în special în domeniul percepției mașinilor: extragerea de informații utile din imagini, videoclipuri, sunete și multe altele Având în vedere suficiente date de antrenament (de exemplu, date de antrenament pre-clasificate de oameni), aproape orice poate extrage un om din informațiile senzoriale Prin urmare, se spune uneori că învățarea profundă a rezolvat problema percepției, deși acest lucru este valabil doar pentru o definiție foarte restrânsă a termenului percepție Scurtă prezentare generală a conceptelor cheie Datorită progreselor tehnice fără precedent, învățarea profundă a adus de unul singur a treia și de departe cea mai lungă vară a IA, o perioadă de interes sporit, investiții și hype în domeniul AI Această carte tocmai era scrisă la mijlocul acestei veri Dacă această perioadă se va încheia în viitorul apropiat și ce se va întâmpla la sfârșit este un subiect de discuție Un lucru este sigur: spre deosebire de alte veri AI, învățarea profundă a adus beneficii uriașe unui număr de mari companii de tehnologie, permițând recunoașterea vorbirii, asistența inteligentă, clasificarea imaginilor la nivel uman, traducerea automată mult îmbunătățită și multe altele Exagerarea se va diminua, dar impactul economic și tehnologic durabil al învățării profunde va rămâne În acest sens, învățarea profundă este ca internetul: pasiunea pentru ea poate să nu se potolească de câțiva ani, dar în cele din urmă este o revoluție serioasă care ne va schimba economia și viața Sunt deosebit de optimist în ceea ce privește învățarea profundă, deoarece chiar dacă nu vom face progrese tehnologice suplimentare în următorul deceniu, implementarea algoritmilor existenți pentru fiecare aplicație va schimba jocul pentru majoritatea industriilor Învățarea profundă este o adevărată revoluție și în prezent progresează într-un ritm incredibil de rapid datorită investițiilor din ce în ce mai mari în resurse și oameni De unde mă aflu, viitorul pare luminos, deși așteptările pe termen scurt par exagerat de optimiste; Implementarea învățării profunde la întregul său potențial va dura cel puțin un deceniu Cum să obțineți corect învățarea profundă Cel mai uimitor lucru despre învățarea profundă este ușurința de implementare În urmă cu zece ani, nimeni nu se aștepta că vom obține un asemenea succes în rezolvarea problemelor de percepție a mașinilor, folosind modele parametrice simple antrenate prin metoda coborârii gradientului Acum știm că tot ce ne trebuie sunt modele parametrice suficient de mari antrenate prin coborâre în gradient pe un număr suficient de mare de exemple Așa cum a spus Richard Feynman despre univers: "Nu este complex, este doar foarte mare" În deep learning, totul este un vector: totul este un punct într-un spațiu geometric Intrările de model (text, imagini etc ) și țintele sunt mai întâi vectorizate - transformate în spații vectoriale inițiale de intrări și ținte Fiecare strat dintr-un model de învățare profundă implementează o transformare geometrică simplă a datelor care trec prin el Și întregul lanț de straturi din model formează o transformare geometrică complexă, constând dintr-o succesiune de cele simple Această transformare complexă încearcă să mapeze punct cu punct spațiul de intrare la spațiul țintă Este parametrizată de greutățile stratului, Interviu cu Richard Feynman, The World from AnotherPointof View, Yorkshire Television, Capitolul Concluzie care sunt actualizate iterativ, în funcție de calitatea modelului Caracteristica cheie a unei astfel de transformări geometrice este diferențiabilitatea, care este esențială pentru învățarea greutăților prin coborârea gradientului Aceasta înseamnă că transformarea geometrică a datelor de intrare în date de ieșire trebuie să fie lină și continuă, ceea ce este o limitare semnificativă Întregul proces de aplicare a unei transformări geometrice complexe la datele de intrare poate fi gândit ca o persoană care încearcă să desfășoare o bucată de hârtie mototolită: acel wad este varietatea de intrare de la care pornește modelul Fiecare mișcare umană este asemănătoare cu o simplă transformare geometrică efectuată de un singur strat Secvența completă de mișcare este o transformare complexă implementată de model Modelele de învățare profundă sunt mașini matematice care derulează o varietate complexă de date de intrare cu multe dimensiuni Aceasta este magia învățării profunde: transformarea sensului în vectori, în spații geometrice și învățarea treptat a transformărilor geometrice complexe care se mapează de la un spațiu la altul Tot ce aveți nevoie sunt spații cu o dimensiune suficient de mare pentru a surprinde pe deplin relațiile prezente în datele originale Totul se bazează pe o idee principală: sensul constă în relații perechi (între cuvinte dintr-o limbă, între pixeli dintr-o imagine etc ) și aceste relații pot fi estimate cu o funcție de distanță Dar rețineți că întrebarea dacă creierul realizează sens prin spațiile geometrice este o chestiune complet diferită Spațiile vectoriale sunt eficiente din punct de vedere computațional, dar nu este dificil să ne imaginăm utilizarea altor structuri de date pentru inteligență, cum ar fi graficele Inițial, rețelele neuronale au provenit din ideea de a folosi grafice ca o modalitate de a codifica semnificația, motiv pentru care au fost numite rețele neuronale \ domeniul de cercetare înconjurător a fost de obicei numit conexionism În prezent, denumirea de rețele neuronale este păstrată doar datorită tradiției - acest nume este foarte departe de adevăr, deoarece nu sunt nici rețele neuronale, nici rețele În special, rețelele neuronale aproape că nu se aseamănă cu creierul O denumire mai potrivită ar fi reprezentări stratificate antrenabile sau reprezentări ierarhice antrenabile, sau chiar modele diferențiabile profunde, sau transformări geometrice secvențiale, pentru a sublinia continuitatea manipulărilor cu spațiul geometric Tehnologii cheie Revoluția tehnologică care se desfășura în fața ochilor noștri nu a început cu o singură invenție revoluționară Ca orice altă revoluție, a fost rezultatul acumulării unui număr mare de factori favorabili - la început Scurtă prezentare generală a conceptelor cheie încet, apoi ca o avalanșă În cazul învățării profunde, pot fi subliniați următorii factori cheie: □ Apariția treptată a inovațiilor algoritmice, care se dezvoltă lent pe parcursul a două decenii (începând cu propagarea inversă) și apoi din ce în ce mai rapid datorită creșterii cercetării în învățarea profundă după □ Disponibilitatea unor cantități mari de date senzoriale Doar din această cauză, am putut înțelege că tot ce ne trebuie sunt modele suficient de mari antrenate pe cantități suficient de mari de date Big Data, la rândul său, a fost un produs secundar al creșterii internetului pentru consumatori și a Legii lui Moore privind stocarea datelor □ Disponibilitatea hardware de calcul cu costuri reduse, extrem de paralele, în special unități de procesare grafică (GPU) de la NVIDIA - primele GPU-uri au fost concepute pentru industria jocurilor, urmate de cipuri special concepute pentru nevoile de învățare profundă Încă de la început, CEO-ul NVIDIA, Jensen Huang, a remarcat interesul tot mai mare pentru deep learning și a decis să parieze pe aceasta □ Construirea unui teanc end-to-end de tehnologii software care au făcut această putere de calcul disponibilă oamenilor: limbajul CUDA, precum și cadre precum TensorFlow care realizează automat diferențierea și Keras care face învățarea profundă accesibilă pentru mulți În viitor, învățarea profundă va fi folosită nu numai de specialiști - oameni de știință, studenți absolvenți și ingineri academicieni, ci și de orice dezvoltatori, așa cum sa întâmplat cu tehnologiile web Oricine are nevoie de aplicații inteligente: la fel cum orice companie de astăzi are nevoie de un site web, fiecare produs va trebui să înțeleagă în mod inteligent datele generate de utilizatori Pentru a promova acest viitor, trebuie să creăm instrumente care să facă învățarea profundă extrem de ușor de utilizat și accesibilă oricui are abilități de programare de bază Keras este primul pas important în această direcție Proces generalizat de învățare automată Este plăcut să ai acces la un instrument extrem de puternic pentru crearea de modele care mapează orice intrare în orice spațiu țintă, dar o parte la fel de complexă a procesului de învățare automată este tot ceea ce precede proiectarea și formarea unor astfel de modele (și pentru modelele industriale, totul asta se intampla dupa ) O condiție prealabilă pentru aplicarea cu succes a învățării automate este o înțelegere suficient de completă a domeniului subiectului pentru a determina ce se poate încerca să prezică, având în vedere setul de date actual și cum să se măsoare succesul Niciun instrument modern nu vă poate ajuta în acest sens Capitolul Concluzie precum Keras și TensorFlow Să recapitulăm cum arată procesul tipic de învățare automată descris în Capitolul : Definiți problema: ce date sunt disponibile și ce trebuie prezis? Poate că trebuie să colectați mai multe date sau să angajați oameni pentru a clasifica manual setul de date de antrenament? Alegeți o măsură fiabilă a succesului în atingerea obiectivelor dvs Pentru sarcini simple, aceasta poate fi acuratețea predictivă, dar în multe cazuri este necesară utilizarea unor metrici mai complexe care depind de domeniul subiectului Pregătiți o procedură de validare pentru evaluarea modelelor În special, trebuie să definiți seturile de date de instruire, validare și control Informațiile din seturile de date de testare și control nu ar trebui să se scurgă în datele de antrenament: de exemplu, în cazul serii de timp, datele de testare și de control ar trebui să urmeze imediat datele de antrenament Convertiți datele în vectori și efectuați preprocesare pentru a le face mai accesibile rețelei neuronale (normalizare etc ) Implementați primul model care sparge bara soluției de bază pentru a verifica dacă învățarea automată poate fi aplicată problemei Acesta nu este întotdeauna cazul! Rafinați treptat arhitectura modelului dvs modificând hiperparametrii și adăugând regularizare Efectuați modificări pentru a îmbunătăți calitatea pe baza datelor de testare - în această etapă nu trebuie luate în considerare nici datele de control, nici datele de instruire Amintiți-vă că trebuie să vă aduceți modelul într-o stare de supraajustare (pentru a determina nivelul de putere al modelului care vă acoperă nevoile) și abia apoi să adăugați regularizare sau să reduceți dimensiunea modelului Fiți conștienți de supraadaptarea setului de validare atunci când efectuați reglarea hiperparametrului: hiperparametrii pot fi supraspecializați pentru setul de validare Pentru a evita acest lucru, creați un set de control separat! Arhitecturi de bază de rețea Există trei familii de arhitecturi de rețea de care ar trebui să știți: rețele complet conectate, convoluționale și recurente Fiecare tip de rețea este proiectat pentru o anumită modalitate de date de intrare: arhitectura rețelei (complet conectată, convoluțională, recurentă) codifică ipoteze despre structura datelor: spațiul de ipoteze în care este căutat un model bun Adecvarea arhitecturii alese pentru o sarcină dată depinde în totalitate de conformitatea structurii de date cu ipotezele arhitecturii de rețea Scurtă prezentare generală a conceptelor cheie Aceste tipuri diferite de rețele pot fi combinate pentru a crea rețele mari multimodale, similare cărămizilor LEGO Într-un fel, straturile de învățare profundă sunt părți LEGO pentru procesarea informațiilor Mai jos este o scurtă prezentare a corespondențelor dintre unele modalități de intrare și arhitecturi de rețea: □ Date vectoriale - rețele complet conectate (straturi dense) □ Imaginile sunt rețele convoluționale D □ Sunete (de ex semnale cu forme de undă) - rețele convoluționale D (de preferat) sau rețele recurente □ Date text - rețele convoluționale D (de preferat) sau rețele recurente □ Secvențe de timp - rețele recurente (de preferat) sau rețele convoluționale unidimensionale □ Alte tipuri de date seriale sunt rețelele recurente sau rețelele convoluționale unidimensionale Rețelele recurente sunt preferate atunci când ordinea datelor este importantă (de exemplu, pentru secvențe de timp, dar nu pentru text) □ Date video - rețele convoluționale D (dacă se dorește captura de mișcare) sau o combinație a unei rețele convoluționale D care funcționează la nivel de cadru pentru a extrage caracteristici, urmate de o rețea recurentă sau o rețea convoluțională D pentru a procesa secvențele rezultate □ Date volumetrice - rețele convoluționale D Acum să ne amintim caracteristicile fiecărei arhitecturi Rețele complet conectate Rețelele complet conectate sunt un teanc de straturi dense concepute pentru a procesa date vectoriale (pachete vectoriale) Astfel de rețele nu presupun prezența unei anumite structuri în caracteristicile de intrare: ele sunt numite complet conectate (conectate dens), deoarece dimensiunile stratului Dens sunt conectate la toate celelalte dimensiuni Stratul încearcă să afișeze relațiile dintre oricare două caracteristici de intrare Prin aceasta diferă, de exemplu, de un strat convoluțional bidimensional, care ia în considerare doar relațiile locale Rețelele complet conectate sunt utilizate cel mai frecvent pentru date care exprimă caracteristici calitative (de exemplu, atunci când caracteristicile de intrare sunt liste de atribute), cum ar fi datele din setul de date privind prețurile caselor din Boston, utilizat în Capitolul Ele sunt, de asemenea, utilizate pentru clasificarea finală sau regresie în majoritatea rețelelor De exemplu, rețelele convoluționale luate în considerare Capitolul Concluzie în Capitolul , precum și rețelele recurente discutate în Capitolul , se termină de obicei cu unul sau două straturi de Dense Amintiți-vă: pentru clasificarea binară, stiva de straturi trebuie să se încheie cu un strat Dens cu o singură dimensiune, o funcție de activare sigmoid și o funcție de pierdere binary crossentropy Ținta dvs ar trebui să fie sau : din modelele de import keras din straturi de import keras model = modele Sequential() model add(layers Dense( j activation='relu', input shape=(num input featureSj))) model add(layers Dense( j activation='relu')) model add(layers Dense(lj activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentmount') Pentru a efectua o clasificare neechivocă (când fiecare probă aparține exact unei clase), încheiați stiva de straturi cu un strat Dens cu numărul de dimensiuni egal cu numărul de clase și o funcție de activare softmax Dacă țintele sunt codificate direct, utilizați funcția de pierdere categorical crossentropy; dacă sunt numere întregi, utilizați sparse categorical crossentropy: model = modele Sequential() model add(layers Dense( j activation='relu', input shape=(num input featureSj))) model add(layers Dense( j activation='relu')) model add(layers Dense(num classesj activation='softmax')) model compile(optimizer='rmsprop', loss='categorical crossentropy') Pentru a efectua clasificarea cu mai multe valori (atunci când fiecare probă poate aparține mai multor clase deodată), încheiați stiva de straturi cu un strat Dens cu numărul de dimensiuni egal cu numărul de clase, funcția de activare softmax și funcția de pierdere binary crossentropy Obiectivele dvs ar trebui să fie obținute prin codificare directă k-dimensională: model = modele Sequential() model add(layers Dense( j activation='relu', input shape=(num input featureSj))) model add(layers Dense( j activation='relu')) model add(layers Dense(num classesj activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentmount') Pentru a regresa spre un vector de valori continue, terminați stiva de straturi cu un strat Dens cu același număr de dimensiuni ca și numărul de valori pe care încercați să le preziceți (adesea una, cum ar fi prețul unei proprietăți), fără o funcție de activare Pentru regresie, puteți folosi mai multe Scurtă prezentare generală a conceptelor cheie funcții de pierdere; cele mai frecvent utilizate în practică sunt eroarea pătratică medie (MSE) și eroarea medie absolută (MAE): model = modele Sequential() model add(layers Dense( j activation='relu', input shape=(num input featureSj))) model add(layers Dense( j activation='relu')) model add(layers Dense(num values)) model compile(optimizer='rmsprop', loss='mse') Rețele convoluționale Straturile convoluționale extrag modele spațiale locale prin aplicarea acelorași transformări geometrice în diferite locații din spațiu (fragmente) în tensorul de intrare Acest lucru are ca rezultat reprezentări invariante de transfer, făcând convoluțiile extrem de eficiente și modulare Această idee se aplică spațiilor de orice dimensiune: unidimensionale (secvențe), bidimensionale (imagini), tridimensionale (volume) și așa mai departe corespund ipotezei invarianței transferului), stratul Conv D pentru procesarea imaginilor și Stratul Conv D pentru procesarea volumului Rețelele neuronale convoluționale constau dintr-un teanc de straturi convoluționale și straturi de pooling maxim Stratul de selecție vă permite să reduceți dimensiunea spațială a datelor, ceea ce este necesar pentru a menține dimensiunea hărții caracteristicilor în limite rezonabile pe măsură ce numărul de caracteristici crește și permite straturilor convoluționale ulterioare să "vadă" spațiul de intrare pe o suprafață mai mare zonă Rețelele convoluționale se termină adesea cu o operațiune de aplatizare sau un strat de selecție globală care transformă harta caracteristicilor spațiale în vectori, urmate de straturi dense care implementează clasificarea sau regresia Vă rugăm să rețineți că există o mare probabilitate ca circumvoluțiile convenționale să fie în curând înlocuite în mare măsură (sau complet) de o alternativă echivalentă, dar mai rapidă și mai eficientă în ceea ce privește extragerea vederilor: convoluții separabile în adâncime (stratul SeparableConv D) Acest lucru se aplică intrărilor tri-, bidimensionale și unidimensionale Când creați noi rețele de la zero, este cu siguranță de preferat să folosiți convoluții separate de adâncime Stratul SeparableConv D poate fi folosit ca înlocuitor direct pentru stratul Conv D, rezultând o rețea mai mică, mai rapidă, care face treaba mai bine Iată o rețea tipică pentru clasificarea imaginilor (clasificare categorică în acest caz): Capitolul Concluzie model = modele Sequential() model add(layers SeparableConv D( j , activation='relu', input shape=(heightj width, channels))) model add(layers SeparableConv D( j , activation='relu')) model add(layers MaxPooling D( )) model add(layers SeparableConv D( j , activation='relu')) model add(layers SeparableConv D( j , activation='relu')) model add(layers MaxPooling D( )) model add(layers SeparableConv D( j , activation='relu')) model add(layers SeparableConv D( j , activation='relu')) model add(layers GlobalAveragePooling D()) model add(layers Dense( j activation='relu')) model add(layers Dense(num classesj activation='softmax')) model compile(optimizer='rmsprop', loss='categorical crossentropy') Rețele neuronale recurente Rețelele neuronale recurente (RNN) procesează secvențele de intrare câte un interval de timp, menținând o stare pe tot parcursul (de obicei, o stare este un vector sau un set de vectori: un punct într-un spațiu geometric de stări) Ele sunt în general preferate față de rețelele convoluționale D atunci când se prelucrează secvențe în care modelele de interes nu sunt invariante în ceea ce privește decalajul temporal (de exemplu, datele seriei temporale în care trecutul recent este mai important decât trecutul îndepărtat) Există trei straturi RNN disponibile în Keras: SimpleRNN, GRU și LSTM Pentru majoritatea aplicațiilor practice, este mai bine să utilizați GRU sau LSTM LSTM este cel mai puternic dintre cele două, dar și mai costisitor din punct de vedere computațional; GRU poate fi văzut ca o alternativă mai simplă și mai puțin costisitoare Pentru a stivui mai multe straturi RNN, fiecare strat anterior înainte de ultimul trebuie să returneze o secvență completă a ieșirilor sale (fiecare interval de timp de intrare va corespunde unui interval de timp de ieșire); dacă nu sunt suprapuse alte straturi RNN deasupra, atunci rețeaua returnează doar ultima ieșire care conține informații despre întreaga secvență Iată un singur strat RNN simplu pentru clasificarea binară a secvențelor de vectori: model = modele Sequential() model add(straturi LSTM( , input shape=(num timesteps,, num features))) model add(layers Dense(num classesj activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentmount') Scurtă prezentare generală a conceptelor cheie Și iată o stivă de straturi RNN pentru clasificarea binară a secvențelor vectoriale: model = modele Sequential() model add(straturi LSTM( j returri-Sequences^rue, input shape=(num timestepsj num features))) model add(layers LSTM( j return sequences=True)) model add(straturi LSTM( )) model add(layers Dense(num classesj activation='sigmoid')) model compile(optimizer='rmsprop', loss='binary crossentmount') Spațiul Oportunităților Ce se poate construi folosind tehnici de învățare profundă? Amintiți-vă că construirea modelelor de învățare profundă este ca și cum ați juca cu cărămizi LEGO: straturile pot fi conectate între ele pentru a afișa aproape orice, având în vedere setul de date de antrenament potrivit și capacitatea de a reda folosind o secvență de transformări geometrice cu o complexitate rezonabilă Spațiul posibilităților este nesfârșit Această secțiune demonstrează câteva exemple pentru a arăta că învățarea profundă depășește problemele de clasificare și regresie care au reprezentat în mod tradițional sângele învățării automate Am sortat exemplele de aplicații pe care le-am sugerat după modalitățile de intrare și de ieșire Rețineți că unele dintre ele împinge limitele: deși este posibil să antrenați un model pentru toate aceste sarcini, în unele cazuri un astfel de model poate să nu poată generaliza dincolo de datele de antrenament Secțiunile și descriu modul în care aceste restricții pot fi ridicate în viitor □ Maparea vector de date la vector de date: • îngrijire predictivă a sănătăţii - prezicerea rezultatelor tratamentului în funcţie de fişele medicale ale pacienţilor; • analiza comportamentului - prezicerea duratei de ședere a unui utilizator pe un site web pe baza unui set de atribute ale acestui site; • controlul calității produsului - prezicerea probabilității faptului că acesta va înceta să mai fie solicitat în anul următor pe baza setului de atribute ale unei instanțe a unui produs fabricat □ Maparea unei imagini la un vector de date: • asistent medic - prezicerea prezenței unei tumori din fotografii medicale; • autovehicule cu control automat - determinarea unghiului de rotatie al volanelor din cadrele provenite de la camera video; Capitolul Concluzie • jocuri de societate cu AI - previziunea următoarei mișcări a jucătorului prin aranjarea pieselor pe tabla de șah sau a pietrelor pe tabla Go; • asistent dietetician - prezicerea conținutului de calorii al unui fel de mâncare pe baza imaginii acestuia; • predicție de vârstă - determinarea vârstei oamenilor prin autoportrete (selfie-uri) □ Maparea secvențelor de timp la vectorul de date: • prognoza meteo - prognoza meteo pentru saptamana urmatoare la o anumita locatie bazata pe secvente de timp ale datelor meteorologice; • interfață creier-calculator - maparea secvențelor de timp ale datelor encefalogramei magnetice în comenzi pentru un computer; • Analiza comportamentului - determinarea probabilității ca un utilizator să cumpere ceva, în funcție de succesiunea temporală a interacțiunilor sale cu site-ul web □ Maparea text cu text: • autoresponder inteligent - generarea de răspunsuri pe o singură linie la e-mailuri; • răspunsuri la întrebări - generarea de răspunsuri la întrebări comune; • rezumarea - conversia articolelor lungi în recenzii scurte; □ Afișați imagini în text: • generare de subtitrări - generarea de subtitrări scurte pentru imagini care descriu conținutul acestora □ Afișează text în imagini: • generarea imaginilor după condiţie - obţinerea de imagini corespunzătoare unor scurte descrieri de text; • selecția/generarea logo-urilor - crearea unui logo pe baza numelui și a unei scurte descriere a companiei □ Maparea imaginilor cu imagini: • Upscaling - Afișează imagini cu rezoluție scăzută într-o versiune de înaltă rezoluție; • oferirea de profunzime vizuală - crearea de hărți de adâncime din imagini plate □ Afișați imagini și text în text: • Întrebări și răspunsuri despre imagini - Mapează imaginile și întrebările despre conținutul lor în limbaj natural cu răspunsuri în limbaj natural Limitările învățării profunde □ Afișare video și text în text: • Întrebări și răspunsuri video - Afișează videoclipuri în limbaj natural și întrebări despre conținutul lor în răspunsuri în limbaj natural Aproape totul este posibil, dar nu chiar totul Să vedem ce nu se poate face cu deep learning în secțiunea următoare Limitările învățării profunde Sfera posibilelor aplicații ale învățării profunde este aproape nesfârșită Și totuși, există domenii practice în care învățarea profundă este neputincioasă chiar și în prezența unei cantități uriașe de date clasificate umane Imaginați-vă, de exemplu, că aveți capacitatea de a colecta sute de mii - sau chiar milioane - de descrieri de caracteristici în limbaj natural ale unui produs software scrise de experți, împreună cu codul sursă corespunzător dezvoltat de o echipă de ingineri pentru a implementa aceste caracteristici Chiar și cu acest volum, nu puteți antrena un model de deep learning pentru a citi descrierea produsului și a genera codul corespunzător Acesta este doar un exemplu din multe În general, tot ceea ce necesită raționament, cum ar fi programarea sau aplicarea metodelor științifice de planificare pe termen lung și manipulare algoritmică a datelor, nu este disponibil pentru modelele de învățare profundă, indiferent de cantitatea de date de antrenament Chiar și antrenarea unei rețele neuronale profunde pentru o sortare simplă este o sarcină care necesită foarte mult timp Acest lucru se datorează faptului că un model de învățare profundă este doar un lanț de transformări geometrice simple care mapează un spațiu vectorial la altul Poate mapa doar un set de date X la un alt set de date Y, presupunând existența unei transformări continue care poate fi învățată de la X la Y Un model de învățare profundă poate fi interpretat ca un fel de program; dar majoritatea programelor nu pot fi exprimate ca modele de învățare profundă - pentru majoritatea problemelor, fie nu există o rețea neuronală profundă corespunzătoare capabilă să o rezolve, fie chiar dacă există, poate fi de neînvățat", transformarea geometrică corespunzătoare poate fi prea complexă, sau poate lipsi date necesare instruirii sale Extinderea metodelor moderne de învățare profundă prin creșterea numărului de straturi și utilizarea unor cantități mari de date de antrenament poate atenua doar puțin unele dintre aceste probleme Totuși, acest lucru nu rezolvă principalele probleme care limitează puterea expresivă a modelelor de deep learning, deoarece majoritatea programelor pe care ați dori să le includeți în antrenament nu pot fi exprimate ca o secvență de transformări geometrice ale unui set de date Capitolul Concluzie Riscul umanizării modelelor de învățare profundă În stadiul actual al dezvoltării AI, există un risc real de a interpreta greșit ceea ce fac modelele de învățare profundă și de a le supraestima capacitățile Trăsătura fundamentală a omului este teoria noastră a minții: dorința noastră de a proiecta intențiile, credințele și cunoștințele asupra lumii din jurul nostru Desenarea unui chip zâmbitor pe o stâncă îl face "fericit" - în mintea noastră În ceea ce privește învățarea profundă, aceasta înseamnă că atunci când, de exemplu, reușim să antrenăm cu succes un model care generează subtitrări pentru imagini, avem tendința de a crede că modelul "înțelege" ceea ce este înfățișat pe ele și generează subtitrări Dar apoi suntem surprinși când orice abatere de la imaginile din setul de antrenament face ca modelul să genereze legendele complet absurde (Fig ) Un băiat în mână cu o bâtă de baseball Orez Eroare în sistemul de subtitrăre a imaginilor de deep learning Acest lucru este evidențiat în special de exemplele de rețele adverse care furnizează mostre în rețeaua de învățare profundă care sunt concepute special pentru a păcăli modelul Știți deja că puteți, de exemplu, să efectuați ascensiune în gradient pe spațiul de intrare și să generați o intrare care maximizează funcția de activare a unui filtru convoluțional - aceasta este baza tehnicii de vizualizare a filtrului introdusă în Capitolul , precum și DeepDream algoritm pe care l-am discutat în capitolul În mod similar, folosind ascensiunea în gradient, puteți modifica ușor imaginea pentru a crește probabilitatea de a alege o anumită clasă în clasificare Făcând o fotografie a unui panda și adăugând un gradient de gibon, puteți face ca rețeaua neuronală să clasifice panda ca un gibon (Figura ) Aceasta este o dovadă a fragilității unor astfel de modele și este o diferență profundă între maparea lor a intrărilor la ieșiri și percepția umană Mai simplu spus, modelele de învățare profundă nu au nicio înțelegere a datelor pe care le primesc ca intrare - cel puțin nu în sens uman Propria noastră înțelegere a imaginilor, sunetelor și limbajului se bazează pe experiența umană senzorio-motorie Modelele de învățare automată nu au această experiență și, prin urmare Limitările învățării profunde Gradient clasa gibon Orez Modificările subtile ale imaginii pot împiedica modelul să o clasifice corect nu poate înțelege datele de intrare ca un om Adnotând un număr mare de exemple de antrenament pentru a le transmite în modele, le învățăm transformări geometrice care mapează datele la concepte umane pe un set specific de exemple, dar aceasta este doar o schiță schematică a reprezentărilor pe care le avem în minte și, ca rezultat, a experienței de viață Este ca o reflexie slabă într-o oglindă (Figura ) Concepte abstracte în mintea umană Date etichetate care ilustrează aceste concepte Model de învățare automată Este posibil să nu reflecte întotdeauna cu exactitate lumea reală Nu se potrivește cu modelul mental uman original Se potrivește cu datele de antrenament Orez Modele moderne de învățare automată: ca o reflectare într-o oglindă Capitolul Concluzie În calitate de practicant în învățarea automată, ține întotdeauna cont de acest lucru și nu cădea niciodată în capcana de a crede că rețelele neuronale înțeleg problema pe care o rezolvă - nu o înțeleg, cel puțin nu așa cum o înțelegem noi Ei sunt instruiți să rezolve o problemă diferită, mult mai restrânsă decât ne-am dori: să mapați intrările de antrenament la datele țintă, punct cu punct Odată ce le arătați ceva care se abate de la datele de antrenament, ei vor începe să manifeste un comportament absurd Generalizare locală și extremă Există o diferență fundamentală între transformarea geometrică simplă a intrărilor în ieșiri pe care le realizează modelele de învățare profundă și modul în care oamenii gândesc și învață Nu este doar faptul că oamenii învață din experiență, mai degrabă decât din exemple explicite de predare Pe lângă diferitele procese de învățare, există o diferență fundamentală în natura reprezentărilor subiacente Oamenii sunt capabili să facă mai mult decât să cartografieze impacturile directe în răspunsuri directe, cum ar fi o rețea adâncă sau poate ca o insectă Construim modele abstracte complexe ale situației noastre actuale, ale noastră și ale altora și putem folosi aceste modele pentru a prezice posibile viitoare și a planifica pe termen lung Putem conecta concepte binecunoscute pentru a reprezenta ceva ce nu am mai experimentat până acum, cum ar fi desenarea unui cal în blugi sau imaginarea ce am face dacă am câștiga la loterie Această capacitate de a formula ipoteze, de a extinde spațiul modelului nostru mental dincolo de ceea ce putem experimenta direct - de a generaliza și a raționa - este poate caracteristica definitorie a gândirii umane Eu numesc această generalizare extremă: capacitatea de a se adapta la situații noi, neexperimentate anterior, cu date puține sau deloc Acest lucru este în contrast puternic cu activitățile rețelelor profunde, pe care le numesc generalizare locală (Figura ) Maparea input-to-out realizată de rețeaua profundă își pierde rapid sensul dacă sunt introduse noi intrări, chiar dacă sunt ușor diferite de ceea ce a văzut rețeaua în timpul procesului de instruire Luați în considerare, de exemplu, problema determinării parametrilor de lansare ai unei rachete care ar trebui să aterizeze pe Lună Dacă utilizați o rețea profundă pentru a o rezolva și a o antrena folosind o abordare de învățare supervizată sau de întărire, va trebui să acumulați rezultatele a mii sau chiar milioane de încercări: va trebui să alimentați rețeaua cu o probă densă din spațiul de intrare pentru a-l antrena pentru a mapa în mod fiabil spațiul de intrare în ziua liberă În schimb, noi, ca oameni, ne putem folosi capacitatea de a generaliza și de a veni cu modele fizice - știința rachetei - pentru a ajunge la o soluție exactă, Limitările învățării profunde care va ajuta la aterizarea unei rachete pe Lună după una sau mai multe încercări De asemenea, dacă decideți să creați o rețea profundă pentru a controla corpul uman și doriți să-l antrenați să navigheze în siguranță prin oraș fără a fi lovit de mașini, rețeaua dvs va trebui să treacă prin multe mii de situații dezastruoase diferite până când va învăța să încheie că mașinile sunt periculoase și dezvoltă un comportament de evaziune adecvat Cu toate acestea, dacă rețeaua intră într-un alt oraș, va trebui să uite cea mai mare parte a ceea ce a învățat deja și să reînvețe Oamenii, dimpotrivă, sunt capabili să învețe regulile unui comportament sigur fără a experimenta vreodată un final fatal, din nou datorită capacității lor de a modela în mod abstract situații ipotetice Același set de date sau experiență Generalizare locală: capacitatea de a generaliza este limitată la recunoașterea modelelor Generalizare extremă: capacitatea de a generaliza este întărită de capacitatea de a raționa și de a crea modele abstracte Orez Generalizare locală și extremă Mai simplu spus, în ciuda progresului nostru în percepția mașinilor, suntem încă foarte departe de AI la nivel uman Modelele noastre sunt capabile doar de generalizare locală, adaptându-se la situații noi care trebuie să fie similare cu cele anterioare, în timp ce mintea umană este capabilă de planificare pe termen lung și generalizare extremă, adaptându-se rapid la situații radical diferite Rezumând Amintiți-vă: singurul succes real al învățării profunde de până acum a fost capacitatea de a mapa spațiul X la spațiul Y folosind transformări geometrice continue și cantități mari de date, clasificate Capitolul Concluzie măcinat de om Soluția la această problemă a schimbat fundamental situația în toate industriile, dar suntem încă foarte departe de IA la nivel uman Pentru a depăși unele dintre limitările discutate mai sus și pentru a crea o inteligență artificială capabilă să înlocuiască complet creierul uman, trebuie să ne îndepărtăm de maparea directă a intrării la ieșire și să începem să modelăm capacitatea de a raționa și de a generaliza Un substrat probabil potrivit pentru modelarea abstractă a diferitelor situații și concepte sunt programele de calculator Am spus deja că modelele de învățare automată pot fi gândite ca programe care pot fi învățate; în prezent, putem antrena rețele doar pentru a construi un subset restrâns de programe ad-hoc Totuși, imaginați-vă ce se va întâmpla dacă vom avea ocazia să-i antrenăm să creeze orice programe, modulare și reutilizabile Să vedem în secțiunea următoare cum se poate realiza acest lucru Viitorul învățării profunde Aceasta este secțiunea cea mai ipotetică, al cărei scop este de a extinde orizonturile pentru cei care doresc să se alăture unui program de cercetare existent sau să își continue propria cercetare Știind cât de profunde funcționează rețelele și înțelegând stadiul actual al cercetării, putem prezice direcția mișcării pe termen mediu? Următoarele sunt câteva dintre gândurile mele personale Rețineți că nu am un glob de cristal, așa că multe dintre așteptările mele s-ar putea să nu devină realitate Împărtășesc aceste predicții nu pentru că vor fi dovedite în viitorul apropiat, ci pentru că sunt interesante și arată reale în prezent Iată principalele direcții care mi se par promițătoare: □ Modele care sunt mai apropiate de programele universale de calculator, construite pe baza unui set mai larg de primitive decât straturile diferențiabile moderne Așa abordăm posibilitatea modelării raționamentului și generalizării, a cărei lipsă este principalul dezavantaj al modelelor moderne □ Noi forme de învățare, făcând posibil punctul anterior, care vor permite modelelor să se îndepărteze de transformările diferențiabile □ Modele care necesită mai puțină inginerie umană Nu este treaba ta să rotești la nesfârșit butoanele de reglare □ Extinderea reutilizării sistematice a caracteristicilor învățate anterior și a arhitecturilor proiectate, cu crearea de sisteme de meta-învățare folosind rutine modulare Vă rugăm să rețineți: aceste considerații nu se aplică unui anumit tip de învățare supravegheată, care este încă pâinea zilnică Viitorul învățării profunde învățarea profundă, mai degrabă sunt aplicabile oricărei forme de învățare automată, inclusiv învățarea nesupravegheată, autosupravegheată și învățare prin întărire Nu contează de unde provin datele etichetate sau cum arată ciclul de învățare; sunt doar ramuri diferite ale învățării automate - fațete diferite ale aceluiași construct Să le aruncăm o privire mai atentă Modele ca programe După cum s-a menționat în secțiunea anterioară, una dintre transformările obligatorii în învățarea automată la care ne putem aștepta este o îndepărtare de modelele care implementează doar recunoașterea modelelor și sunt capabile doar de generalizări locale, către modele care pot abstrage și raționa și, prin urmare, pot atinge extreme generalizări Toate programele moderne de inteligență artificială capabile de un raționament simplu sunt scrise de un programator uman: de exemplu, programele care se bazează pe algoritmi de căutare, manipularea graficelor și logica formală În jocul AlphaGo de la DeepMind, de exemplu, o mare parte a inteligenței este proiectată și programată de programatori experimentați folosind algoritmi bine definiți (cum ar fi algoritmul Monte Carlo pentru căutarea arborilor); învăţarea pe date are loc numai în module specializate (evaluare şi reţele strategice) Cu toate acestea, în viitor, astfel de sisteme AI pot deveni pe deplin învățate fără intervenția umană Cum se poate întâmpla asta? Luați în considerare un tip de rețele bine studiat: rețele neuronale recurente (RNN) Este important de remarcat că RNN-urile sunt puțin mai puțin restrictive decât rețelele feedforward, deoarece RNN-urile sunt puțin mai mult decât simple transformări geometrice: sunt transformări geometrice repetate iar și iar într-o buclă for internă Bucla for în sine este "cablată" de către un dezvoltator uman: este o presupunere implantată în rețea Desigur, rețelele recurente sunt încă foarte limitate în reprezentarea lor, în primul rând pentru că fiecare dintre pașii lor este o transformare geometrică diferențiabilă și transportă informații de la pas la pas prin puncte dintr-un spațiu geometric continu (vectori de stare) Acum imaginați-vă o rețea neuronală mărită cu primitive software, dar în loc de o singură buclă for cablată cu memorie geometrică bine definită, aceasta include un set vast de primitive software pe care le poate manipula liber și extinde funcțiile de procesare prin ramificarea cu un if declarație, executarea buclelor condiționate while, crearea de variabile, utilizarea discului ca stocare pe termen lung, aplicarea operațiunilor de sortare, utilizarea structurilor complexe de date (cum ar fi liste, grafice și tabele hash) și multe altele Spațiul de programe pe care o astfel de rețea l-ar putea reprezenta ar fi mult mai larg decât ceea ce poate fi reprezentat folosind modelele actuale de deep learning, iar unele dintre aceste programe ar putea atinge cel mai înalt grad de generalizare Capitolul Concluzie Ne vom îndepărta simultan de inteligența hard-coded (software scris de mână) și inteligența geometrică antrenabilă (deep learning) În schimb, obținem o combinație de module algoritmice formale care sprijină abstractizarea și raționamentul și module geometrice care sprijină cunoștințele informale și recunoașterea modelelor Întregul sistem va fi antrenat fără sau cu o implicare umană minimă Un subdomeniu conex al AI care cred că ar putea decola este sinteza programelor, în special sinteza programelor neuronale Sinteza programelor este crearea de programe simple folosind un algoritm de căutare (poate o căutare genetică, ca în programarea genetică) pentru a explora un spațiu vast de programe posibile Căutarea se oprește atunci când este găsit un program care îndeplinește cerințele specificate, adesea sub formă de perechi I/O multiple Acest lucru este foarte asemănător cu învățarea automată: având în vedere datele de antrenament sub formă de perechi de intrare/ieșire, găsim un program care se potrivește cu datele de intrare și de ieșire și este capabil să generalizeze noile date de intrare Diferența este că, în loc să învățăm valorile parametrilor într-un program bine definit (rețea neuronală), generăm cod sursă printr-un proces de căutare discret Cu siguranță mă aștept să văd un nou val de interes în acest domeniu în următorii câțiva ani În special, mă aștept la un nou domeniu contiguu între învățarea profundă și sinteza programelor, în care, în loc de programe de limbaj de uz general, vor fi generate rețele neuronale (fluxuri de procesare a datelor geometrice), completate de o gamă largă de primitive algoritmice, cum ar fi pt bucle și multe altele (Fig ) Acest lucru ar trebui să fie mai practic și util decât sinteza directă a codului sursă și va extinde foarte mult gama de probleme care pot fi rezolvate folosind învățarea automată, spațiul de programe care pot fi generate automat din datele de antrenament Rețelele recurente moderne pot fi considerate precursorii unor astfel de modele hibride algoritmico-geometrice Date Program modular sintetizat din mers pentru a rezolva o problemă specifică Subprogram geometric Subprogram algoritm Subprogram geometric Subprogram algoritm și feedback Acțiuni Sarcina # Orez Un program generat simultan din primitive geometrice (recunoaștere modele, predicție) și algoritmice (raționament, căutare, memorie) Viitorul învățării profunde Dincolo de backpropagation și straturi diferențiabile Dacă modelele de învățare automată devin asemenea programe, ele nu vor mai fi diferențiabile - aceste programe vor folosi în continuare straturi geometrice diferențiabile continue ca subrutine, dar modelele în sine își vor pierde această calitate Ca urmare, nu va mai fi posibilă utilizarea algoritmului de backpropagation pentru a ajusta greutățile rețelei în timpul antrenamentului modelului - cel puțin nu va mai fi singurul Avem nevoie de o modalitate eficientă de a antrena sisteme nediferențiabile Abordările moderne includ algoritmi genetici, strategii evolutive, unele tipuri de învățare prin întărire și metoda cu direcție alternativă a multiplicatorilor (ADMM) Desigur, coborârea în gradient nu duce nicăieri; informațiile de gradient vor fi întotdeauna utile pentru optimizarea funcțiilor parametrice diferențiabile Cu toate acestea, modelele noastre vor deveni mai complexe decât funcțiile parametrice diferențiabile simple și, prin urmare, evoluția lor automată (antrenamentul în învățarea automată) va necesita mai mult decât poate oferi un simplu algoritm de backpropagation Algoritmul de backpropagation este excelent pentru a găsi transformări în lanț bune, dar este ineficient din punct de vedere computațional, deoarece nu profită pe deplin de modularizarea rețelelor adânci Există o rețetă universală pentru creșterea eficienței: introduceți modularitatea și ierarhia Adică, algoritmul de retropropagare a erorilor poate fi eficientizat prin introducerea unui antrenament separat al modulelor cu un mecanism de sincronizare între ele și prin organizarea unui fel de ierarhie Această strategie este reflectată în lucrarea recentă a DeepMind privind gradienții sintetici În viitorul apropiat, mă aștept la mare succes în această direcție Pot să-mi imaginez un viitor în care modelele generale nediferențiabile (dar alcătuite din elemente diferențiabile) sunt antrenate - crescute - utilizând un proces de căutare eficient, fără utilizarea gradienților, iar părțile diferențiabile sunt antrenate și mai rapid folosind o versiune mai eficientă a algoritmul de retropropagare Învățare automată automată În viitor, arhitecturile modelelor vor fi modelate mai degrabă prin învățare decât să fie definite manual de ingineri Generarea automată de arhitecturi este de neconceput fără utilizarea unei game largi de primitive și modele de învățare automată similare cu programele Capitolul Concluzie În prezent, sarcina principală a inginerului de deep learning constă în procesarea datelor folosind script-uri Python și reglarea fină a arhitecturii și hiperparametrilor rețelei deep-work pentru a produce un model de lucru - sau chiar un model de ultimă generație, dacă inginerul este suficient de ambițios Inutil să spun că aceasta nu este o abordare optimă Dar AI poate ajuta cu asta Din păcate, pasul de pregătire a datelor este dificil de automatizat, deoarece pentru a face acest lucru, inginerul are deseori nevoie să cunoască domeniul și să înțeleagă clar la un nivel înalt ceea ce încearcă să realizeze Cu toate acestea, reglarea hiperparametrică este o procedură simplă de căutare, iar în acest caz se știe ce încearcă inginerul să obțină: este determinată de funcția de pierdere a rețelei care este reglată Acum este o practică obișnuită să folosiți sisteme AutoML simple care pot prelua cea mai grea parte a configurarii modelelor Mi-am creat chiar și propriul sistem acum câțiva ani pentru a câștiga un concurs Kaggle La cel mai simplu nivel, un astfel de sistem ar putea configura numeroasele straturi dintr-o stivă, ordinea acestora și numărul de dimensiuni sau filtre din fiecare strat Acest lucru se face de obicei folosind biblioteci precum Hyperopt, despre care a fost discutat în Capitolul Dar puteți merge mai departe și puteți încerca să obțineți o arhitectură potrivită de la zero, cu cele mai puține restricții posibile: de exemplu, folosind învățarea prin întărire sau algoritmi genetici O altă utilizare importantă a AutoML este predarea arhitecturilor model cu ponderi Antrenarea unui model nou de la zero ori de câte ori încercăm o arhitectură puțin diferită este extrem de ineficientă, așa că un sistem AutoML cu adevărat puternic ar putea dezvolta arhitecturi în același timp cu reglarea caracteristicilor modelului prin backpropagare pe datele de antrenament Astfel de soluții încep deja să apară pe măsură ce scriu aceste rânduri Când acest lucru începe să se întâmple, inginerii de deep learning nu își vor pierde locurile de muncă - în schimb, se vor concentra pe lanțurile valorice Ei vor depune mai mult efort pentru a dezvolta funcții complexe de pierdere care să reflecte mai exact obiectivele de afaceri și să exploreze impactul modelelor lor asupra ecosistemului digital în care sunt implementate (de exemplu, asupra utilizatorilor care consumă predicții de model și generează date de antrenament), care în prezent pot permite doar companiilor mari Învățare continuă și reutilizare a rutinelor modulare Pe măsură ce modelele devin mai complexe și se bazează pe primitive algoritmice mai bogate, această complexitate crescută va necesita mai multă reutilizare a rezultatelor soluțiilor anterioare, în loc să antreneze noi modele de la zero de fiecare dată când apare o nouă problemă sau un nou set de date Multe seturi de date nu conțin suficiente informații pentru a ne permite să începem să construim modele noi și complexe de la zero și, prin urmare, va fi necesar să Viitorul învățării profunde folosiți informații din seturile de date anterioare (imaginați-vă dacă ar fi să învățați limba rusă de la zero de fiecare dată când deschideți o carte nouă - ar fi pur și simplu imposibil) Modelele de instruire de la zero pentru fiecare sarcină nouă este, de asemenea, ineficientă din cauza suprapunerii mari dintre sarcinile curente și cele anterioare În ultimii ani, o observație interesantă a fost remarcată în mod repetat: antrenarea aceluiași model pentru rezolvarea problemelor înrudite vag are ca rezultat un model care este mai potrivit pentru fiecare problemă De exemplu, antrenarea aceluiași model de traducere automată neuronală din engleză în germană și din franceză în italiană are ca rezultat un model care este mai potrivit pentru fiecare pereche de limbi În mod similar, antrenarea simultană a unui model de clasificare și segmentare a imaginii folosind aceeași bază convoluțională are ca rezultat un model care funcționează mai bine la ambele sarcini Acest lucru este destul de de înțeles: în sarcinile slab cuplate, o parte din informații este întotdeauna partajată, ca urmare, modelul combinat are acces la mai multe informații despre fiecare sarcină individuală decât un model antrenat să rezolve o anumită sarcină În prezent, reutilizarea modelelor în diferite sarcini înseamnă utilizarea unor greutăți de model antrenate care îndeplinesc funcții universale, cum ar fi evidențierea caracteristicilor vizuale Ați văzut un exemplu în acest sens în Capitolul În viitor, mă aștept ca o versiune mai generalizată să intre în uz: vom folosi nu numai caracteristici extrase anterior (greutăți ale submodelului), ci și arhitecturi de model și proceduri de antrenament Pe măsură ce modelele devin din ce în ce mai mult ca programe, vom începe să reutilizam subrutine precum clase și funcții în limbaje de programare convenționale Imaginați-vă un proces modern de dezvoltare de software: după rezolvarea unei anumite probleme (de exemplu, suportarea cererilor HTTP în Python), un inginer împachetează imediat soluția într-o bibliotecă abstractă reutilizabilă Alți ingineri care se confruntă cu o problemă similară în viitor vor putea să găsească biblioteci existente, să le descarce și să le folosească în proiectele lor Într-un mod similar, în viitor, sistemele de meta-învățare vor putea să asambla noi programe prin cernerea unei biblioteci globale de blocuri reutilizabile de nivel înalt Când sistemul descoperă că are nevoie de rutine similare pentru mai multe sarcini diferite, poate crea o versiune abstractă reutilizabilă a rutinei și o poate stoca în biblioteca globală (Figura ) Un astfel de proces implementează abstractizarea, o componentă necesară pentru a realiza o generalizare extremă Se poate spune că o subrutină care este utilă pentru rezolvarea diferitelor probleme din diferite domenii este abstractă în raport cu unele aspecte ale problemei care se rezolvă Această definiție a abstracției este similară cu conceptul de abstractizare în dezvoltarea de software Astfel de rutine pot fi geometrice (module de deep learning cu reprezentări prealocate) sau algoritmice (mai apropiate de bibliotecile folosite de programatorii moderni) Capitolul Concluzie Difuzare subrutine Biblioteca globală de subrutine abstracte Subrutină geometrică Subprogramă algoritmică Subprogramă algoritmică Subrutină geometrică Subprogramă algoritmică Subprogramă algoritmică Subrutină geometrică Subprogramă algoritmică Subprogramă algoritmică multiplu utilizare Alegerea rutinelor potrivite Un sistem de meta-învățare care poate crea rapid un model la nivel de sarcină pentru o serie de sarcini I Sarcina nr | arhitectural solutii Date și feedback Sarcina # Sarcina # Program modular la nivel de sarcină creat din mers pentru a rezolva o problemă specifică Subprogram geometric Subprogram algoritm Subprogram geometric Subprogram algoritm Date și feedback Acțiuni Sarcina # Orez Un sistem de meta-învățare capabil să dezvolte rapid modele specifice problemei folosind primitive reutilizabile (algoritmice și geometrice) și să realizeze în acest fel o generalizare extremă Perspectivă pe termen lung Iată cum văd perspectiva pe termen lung a învățării automate: □ Modelele vor fi mai mult ca niște programe și vor avea capacități mult dincolo de transformările de intrare geometrice continue pe care le folosim în prezent Este posibil ca aceste programe să fie mai aproape de modelele mentale abstracte pe care oamenii le construiesc în mintea lor și să fie capabile de o generalizare mai largă datorită naturii lor algoritmice bogate □ Modelele vor combina module algoritmice care oferă capacități de raționament formal, căutare și abstracție cu module geometrice care oferă cunoștințe informale și recunoaștere a modelelor AlphaGo (un sistem care necesita software realizat manual și o mulțime de decizii umane) este un exemplu timpuriu al cum ar putea arăta această combinație de AI simbolică și geometrică □ Aceste modele vor fi generate automat, fără implicarea inginerilor umani, folosind componente modulare stocate în Global Reusable Routine Library, o bibliotecă care acumulează modele de înaltă calitate pregătite anterior pe mii de sarcini și seturi de date Vor fi identificate modele de rezolvare a problemelor întâlnite frecvent Cum să ții pasul cu progresul într-un domeniu în evoluție rapidă să devină un sistem de meta-învățare, să devină rutine reutilizabile - cum ar fi funcții și clase în dezvoltarea de software - și să fie adăugate la biblioteca globală Acest lucru va duce la abstracție □ Această bibliotecă globală și sistemul de model asociat vor putea atinge un nivel de generalizare extrem comparabil cu un om: pentru o nouă sarcină sau situație, sistemul va fi capabil să construiască un nou model de lucru folosind foarte puține date, datorită amplorii a primitivelor de programare care susțin generalizarea și o experiență vastă în rezolvarea sarcinilor similare În mod similar, oamenii învață rapid un nou joc video complex bazat pe experiența anterioară cu alte jocuri video, mai degrabă decât pur și simplu maparea stimulilor în acțiuni Acest lucru se datorează faptului că modelele formate pe baza experienței anterioare sunt abstracte și asemănătoare programelor □ Acest sistem de modele în continuă evoluție poate fi considerat Inteligență Generală Artificială (AGI) Cu toate acestea, nu ar trebui să ne așteptăm ca un robot apocaliptic neobișnuit să apară ca rezultat: este pură fantezie, născută dintr-o lungă secvență de neînțelegeri profunde și neînțelegeri atât ale inteligenței, cât și ale tehnologiei Cu toate acestea, o astfel de critică nu este scopul acestei cărți Cum să ții pasul cu progresul într-un domeniu în evoluție rapidă În despărțire, vreau să vă ofer câteva sfaturi despre cum să continuați să învățați și să vă extindeți cunoștințele și abilitățile după ce veți întoarce ultima pagină a acestei cărți Învățarea profundă modernă, așa cum o știm, are doar câțiva ani, în ciuda unei istorii lungi care se întinde de câteva decenii Datorită creșterii exponențiale a injecțiilor financiare și a numărului de cercetători din , acest domeniu se dezvoltă în prezent foarte intens Cunoștințele dobândite în această carte nu vor rămâne actuale pentru totdeauna și, în plus, nu ți-au spus tot ce ți-ar putea fi de folos în carieră Din fericire, există o mulțime de resurse gratuite pe internet pentru a vă ajuta să fiți la curent și să vă extindeți orizonturile Aici sunt câțiva dintre ei Soluții practice la probleme reale pe site-ul Kaggle Una dintre cele mai eficiente modalități de a câștiga experiență practică este participarea la competiții de învățare automată pe site-ul web Kaggle (https://kaggle Capitolul Concluzie sută) Singura modalitate reală de a învăța cum să faci ceva este prin practică și programare reală, care este filosofia acestei cărți Iar competiția de pe site-ul Kaggle este o extensie naturală a acesteia Pe Kaggle, veți găsi o mulțime de sarcini care sunt actualizate în mod constant, dintre care multe sunt legate de învățarea profundă Aceste sarcini sunt pregătite de companii interesate să găsească soluții noi la unele dintre cele mai dificile probleme de învățare automată Câștigătorilor le sunt oferite premii destul de impresionante Majoritatea competițiilor au fost câștigate folosind biblioteca XGBoost (învățare automată superficială) sau cadrul Keras (învățare profundă) Astfel, ești destul de pregătit să participi! Prin participarea la mai multe competiții, poate ca parte a unei echipe, veți învăța latura practică a unora dintre tehnicile avansate descrise în această carte: reglarea hiperparametrului, supraajustarea pe un set de date de validare și ansambluri de modele Consultați cele mai recente evoluții pe site-ul web arXiv Cercetarea în deep learning, spre deosebire de alte domenii ale științei, este complet deschisă Articolele publicate sunt disponibile pentru toată lumea, precum și o mulțime de cod sursă deschis însoțitor arXiv (https://arxiv org) - pronunțat ca "arhivă" (în acest caz, litera X înseamnă litera greacă "chi" - '/ ) este un server de preprint deschis pentru postarea articolelor din domeniul fizicii, matematica si informatica De fapt, a devenit punctul central al cunoștințelor de ultimă oră despre învățarea automată și profundă Marea majoritate a cercetătorilor de deep learning își încarcă lucrările pe arXiv, scrise la scurt timp după concurs Acest lucru le permite să ridice steagul și să revendice constatări specifice fără a aștepta o decizie de la o conferință (care poate dura luni de zile), lucru absolut necesar având în vedere ritmul rapid al cercetării și competiția ridicată în acest domeniu Acest lucru susține și rata extrem de ridicată de dezvoltare a zonei: toate descoperirile noi sunt imediat disponibile pentru toată lumea O problemă semnificativă este că arXiv are un număr mare de articole noi în fiecare zi, ceea ce face imposibil să le parcurgem pe toate, iar faptul că nu sunt revizuite de către colegi face dificilă identificarea celor mai importante și valoroase În fiecare zi devine din ce în ce mai dificil să izolați un semnal util de zgomot În prezent, această problemă nu are o soluție bună Există însă câteva instrumente care vă pot oferi cel puțin ajutor: site-ul de ajutor arXiv Sanity Preserver (http://arxiv-sanity com) acționează ca un mecanism de recomandare pentru selectarea de articole noi și vă poate ajuta să urmăriți noile evoluții într-un segment îngust specific învăţare profundă De asemenea, puteți utiliza Google Academic (https://scholar google com) pentru a urmări noile publicații ale anumitor autori Cuvinte de încheiere Explorarea ecosistemului Keras În noiembrie , erau aproximativ de utilizatori, iar numărul continuă să crească Keras are un ecosistem uriaș de tutoriale, tutoriale și proiecte open source în jurul său: □ Core Keras Framework Reference - Documentație online disponibilă la: https://keras io Codul sursă Keras poate fi găsit la: https://github com/fchollet/keras □ Pentru întrebări, ajutor și discuții de deep learning, vizitați canalul Keras Slack: https://kerasteam slack sută □ Consultați blogul Keras (Jittps://blog keras io) pentru tutoriale Keras și alte articole legate de deep learning □ Mă puteți urmări pe Twitter: (c)fchollet Ultimul cuvânt Acesta este sfârșitul Deep Learning cu Python! Sper că ați învățat ceva nou despre învățarea automată, învățarea profundă, Keras și poate chiar despre capacitatea de a gândi în general Învățarea este o călătorie pe tot parcursul vieții, mai ales în domeniul AI, unde există mult mai multe necunoscute decât certitudini Așa că continuă să înveți, să pui întrebări și să faci cercetări Nu se opresc niciodata Pentru că, chiar și cu progresele înregistrate, multe întrebări fundamentale în AI rămân încă fără răspuns Și multe întrebări nu au fost încă formulate corect ANEXA A Instalarea Keras și dependențele sale pe Ubuntu Procedura de pregătire a unei stații de lucru pentru experimente de învățare profundă este destul de complexă și implică următorii pași, pe care îi vom acoperi în detaliu în această anexă: Instalați pachete de calcul științific pentru Python - Numpy și SciPy - și biblioteca de subprograme de algebră liniară (Basic Linear Algebra Subprogram, BLAS) pentru a crește viteza modelelor de pe CPU Instalarea a două pachete suplimentare care pot fi utile atunci când lucrați cu Keras: HDF (pentru salvarea rețelelor neuronale mari în fișiere) și Graphviz (pentru vizualizarea arhitecturilor de rețele neuronale) Adăugarea suportului pentru executarea codului de deep learning pe GPU prin instalarea driverelor CUDA și cuDNN Instalarea unei biblioteci de nivel scăzut pentru Keras: TensorFlow, CNTK sau Theano Instalați Keras Procedura poate părea frustrant de complicată Cu toate acestea, în realitate, cea mai dificilă parte a acesteia este configurarea suportului GPU Dacă refuzați, întregul proces poate fi finalizat cu doar câteva comenzi în câteva minute Să presupunem că aveți un sistem de operare Ubuntu proaspăt instalat pe un computer echipat cu un GPU NVIDIA Înainte de a începe, asigurați-vă că ați instalat managerul de pachete Python pip și ați actualizat memoria cache a pachetelor apt: $ sudo apt-get update $ sudo apt-get upgrade $ sudo apt-get install python-pip python-dev A Instalarea pachetelor de calcul științific pentru Python PYTHON și PYTHON Implicit, Ubuntu folosește Python pentru a instala pachete Python, cum ar fi pythonpip Dacă alegeți să utilizați Python , utilizați prefixul python în loc de python De exemplu: $ sudo apt-get install python -pip python -dev Când instalați pachete folosind managerul pip, rețineți că acesta vizează implicit Python Pentru a-l redirecționa către Python , utilizați pip: $ sudo pip instalează tensorflow-gpu Al Instalarea pachetelor de calcul științific pentru Python Dacă utilizați un Mac, vă recomandăm să instalați pachetele de calcul științific pentru Python folosind compilația Anaconda (www continuum io/downloads) Vă rugăm să rețineți că această compilație nu include HDF și Graphviz, pe care trebuie să le instalați manual Urmați pașii de mai jos pentru a instala manual pachete de calcul științific pentru Python pe Ubuntu: Instalați biblioteca BLAS (în acest caz, OpenBLAS) pentru a obține suport pentru operațiuni rapide de tensor pe CPU: $ sudo apt-get install build-essential cmake git unzip \ pkg-config libopenblas-dev liblapack-dev Instalați pachete de calcul științific pentru Python: Numpy, SciPy și Matplotlib Acestea sunt necesare pentru a efectua orice calcul de învățare automată sau de învățare profundă în Python: $ sudo apt-get install python-numpy python-scipy python-matplotlib ■-python-yaml Instalați HDF Această bibliotecă, dezvoltată inițial de NASA, permite stocarea unor cantități uriașe de date numerice în fișiere într-un format binar eficient Vă va permite să salvați rapid și eficient modelele Keras pe disc: $ sudo apt-get install libhdf -serial-dev python-h py Instalați Graphviz și pydot-ng, două pachete care vă vor ajuta să vizualizați modelele Keras Nu sunt necesare de cadrul Keras pentru a funcționa, deci Anexa A Instalarea Keras și dependențele sale de Ubuntu puteți sări peste acest pas și să reveniți la el când aveți nevoie de aceste pachete Iată comenzile care vor instala pachetele: $ sudo apt-get install graphviz $ sudo pip install pydot-ng Instalați pachete suplimentare utilizate în unele dintre exemplele noastre de cod: $ sudo apt-get install python-opencv A Setare suport GPU Suportul GPU nu este strict necesar, dar foarte recomandat Tot codul din această carte poate fi rulat pe un procesor de laptop, dar în unele cazuri poate fi necesar să așteptați ore întregi pentru ca modelul să se antreneze în loc de minute pe un GPU bun Dacă nu aveți un GPU NVIDIA modern, puteți sări peste acest pas și să treceți la secțiunea A Pentru a utiliza GPU-ul NVIDIA în deep learning, trebuie să instalați două pachete: □ CUDA - un set de drivere de suport pentru GPU care vă permit să rulați cod de program de nivel scăzut pe acesta care efectuează calcule paralele; □ cuDNN este o bibliotecă de primitive optimizate pentru învățare profundă Când utilizați cuDNN și rulați pe GPU, rata de antrenament a modelului poate fi de obicei crescută de la la % Pachetul TensorFlow depinde de versiunile specifice ale driverelor CUDA și ale bibliotecii cuDNN La momentul redactării acestui pachet, acest pachet folosește CUDA versiunea și cuDNN versiunea Puteți găsi mai multe informații despre compatibilitatea versiunilor pe site-ul web TensorFlow: www tensorflow org/install/install linux Urmați acești pași pentru a instala: Descărcați pachetul CUDA Pentru Ubuntu (și alte versiuni de Einux), NVIDIA creează un pachet gata de utilizare disponibil pentru descărcare la: https://developer nvidia com/cuda-downloads' $ wget http://developer download nvidia com/compute/cuda/repos/ubuntul / -"x /cuda-repo-ubuntul -l amd deb Instalați pachetul CUDA Pe Ubuntu, cel mai simplu mod de a instala este cu managerul de pachete apt În acest caz, puteți instala cu ușurință actualizările cu apt de îndată ce sunt disponibile: $ sudo dpkg -i cuda-repo-ubuntul -l amd deb $ sudo apt-key adv fetch-keys -"http://developer download nvidia com/compute/cuda/repos/ubuntul / -x / fa af pub A Z Instalarea Theano (Opțional) $ sudo apt-get update $ sudo apt-get install cuda- - Instalați biblioteca cuDNN: • Creați un cont de dezvoltator NVIDIA gratuit (din păcate, acesta este necesar pentru a accesa biblioteca cuDNN pentru descărcare) și descărcați cuDNN de la: https://developer NVIDIA com/cudnn (alegeți o versiune de cuDNN compatibilă cu TensorFlow) Ca și în cazul CUDA, NVIDIA furnizează pachete pentru diverse variante de Linux - folosim versiunea Ubuntu Rețineți că, dacă rulați o instanță EC , nu trebuie să descărcați arhiva cuDNN direct în acea instanță; în schimb, descărcați-l pe mașina dvs locală și apoi încărcați-l pe instanța EC (folosind comanda scp) • Instalați cuDNN: $ sudo dpkg -i dpkg -i libcudnn * deb Instalați TensorFlow: • TensorFlow, cu sau fără suport GPU, poate fi instalat din directorul pachetului PyPI utilizând managerul pip Iată comanda de instalat fără suport GPU: $ sudo pip install tensorflow • Și aceasta este comanda pentru a instala TensorFlow cu suport GPU: $ sudo pip install tensorflow-gpu A Z Instalarea Theano (Opțional) După instalarea TensorFlow, nu trebuie să instalați bibliotecile Theano de suport pentru execuția codului Keras Dar uneori poate fi util să treceți de la utilizarea TensorFlow la Theano atunci când construiți modele Keras Biblioteca Theano poate fi instalată și din RuPi: $ sudo pip install theano Dacă aveți instalat suport pentru GPU, trebuie să configurați Theano să-l folosească Pentru a face acest lucru, creați fișierul de configurare Theano cu următoarea comandă: nano ~/ theanorc Apoi adăugați următoarele linii: [global] floatX = float Anexa A Instalarea Keras și dependențele sale pe Ubuntu device=gpu [nvcc] fastmath=Adevărat A Instalarea Keras Puteți instala Keras din RuPl: $ sudo pip install keras Puteți instala Keras și din depozitul GitHub În acest caz, aveți acces la folderul keras/examples, care conține un număr mare de exemple de scripturi: $ git clone https://github com/fchollet/keras $ cd keras $ sudo python setup py install Odată instalat, puteți încerca să rulați un script Keras, cum ar fi următorul exemplu MNIST: python examples/mnist cnn py Rețineți că acest exemplu va dura câteva minute, așa că puteți apăsa pur și simplu Ctrl-C după ce știți că scriptul a rulat și rulează normal După cel puțin o lansare a Keras, va apărea fișierul său de configurare - / keras/keras json Puteți să-l deschideți într-un editor și să alegeți ce bibliotecă de nivel scăzut să utilizați: tensorflow, theano sau cntk Conținutul fișierului de configurare ar trebui să arate astfel: { "image data format": "channels last", "epsilon": le- , "floatx": "float ", "backend": "tensorflow" } În timp ce scriptul examples/mnist cnn py rulează, puteți verifica încărcarea GPU-ului într-o altă fereastră shell: $ watch -n nvidia-smi -a display=utilization Asta e tot! Felicitări - acum sunteți gata să începeți să vă construiți aplicațiile de deep learning ANEXA B Rulează Jupyter Notebook pe Instanța GPU EC Această anexă oferă un ghid pas cu pas pentru rularea notebook-urilor Jupyter (cunoscut și ca "notebook" sau "laptop") cu exemple de învățare profundă pe o instanță AWS GPU și editarea lor de oriunde folosind un browser Acesta este un mediu excelent pentru cercetarea de deep learning dacă nu aveți un GPU pe mașina dvs locală Versiunea originală (și cea mai recentă) a acestui ghid poate fi găsită la: https://blog keras io ÎN Ce este Jupyter Notebook? De ce să rulați Jupyter Notebook pe AWS GPU? Jupyter Notebook este o aplicație web care vă permite să scrieți și să adnotați codul Python în mod interactiv Este o modalitate excelentă de a experimenta, de a face cercetări și de a împărtăși rezultatele tale cu alții Multe aplicații de deep learning consumă o cantitate semnificativă de resurse de calcul și pot rula ore sau chiar zile, în special pe un procesor de laptop A avea suport pentru GPU poate crește foarte mult viteza de învățare și obținerea rezultatelor (de multe ori de - ori atunci când treceți de la un procesor modern la un singur GPU modern) Dar nu toată lumea are un GPU pe mașina locală Rularea Jupyter Notebook pe AWS vă oferă aceeași experiență ca și rularea locală, permițându-vă totodată să utilizați unul sau mai multe GPU-uri pe instanța dvs AWS Și plătiți doar pentru timpul CPU pe care îl folosiți, ceea ce poate fi o valoare mai bună decât investiția în propriul dvs GPU, mai ales dacă faceți deep learning de la caz la caz open-hide biz Anexa B: Rularea notebook-ului Jupyter pe o instanță GPU EC LA Când nu este de dorit să folosiți Jupyter pe AWS pentru învățare profundă? Costul închirierii instanțelor AWS GPU poate crește foarte repede Vă sugerăm să utilizați instanțe la , USD pe oră Sunt grozave pentru utilizare rar și pe termen scurt; dar dacă veți experimenta câteva ore pe zi, atunci ar fi bine să vă construiți mașina de deep learning cu o placă grafică TITAN X sau GTX Ti În general, utilizați Jupyter pe EC dacă nu aveți propriul GPU sau dacă nu doriți să instalați Keras cu dependențe, cum ar fi driverele GPU Dacă aveți propriul GPU, vă recomandăm să rulați modelele local În acest caz, consultați ghidul de instalare din anexa A NOTĂ Veți avea nevoie de un cont AWS activ O anumită familiaritate cu AWS EC este, de asemenea, utilă, deși nu este necesară V Z Configurarea unei instanțe GPU AWS Procesul de configurare descris mai jos va dura - minute: Deschideți panoul de control EC (https://console aws amazon com/ec /v ') și faceți clic pe butonul Lansare instanță (Figura B ) Orez ÎN Panou de control EC Selectați AWS Marketplace (AWS Platform) (Figura B ) și introduceți "deep learning" (deep learning) în câmpul de căutare Derulați în jos în pagină și găsiți imaginea mașinii virtuale numită Deep Learning AMI Ubuntu Version (Figura B ); selectează-l Selectați instanța p xlarge (Figura B ) Instanțele de acest tip oferă acces la un singur GPU și costă , USD pe oră (din martie ) V Z Configurarea unei instanțe GPU AWS Pornire rapidă Mu AMIz Piața AWS AMI-uri comunitare Orez B Selectarea site-ului EC AMI Marketplace amazon websefvwes Versiunea Ubuntu Deep Learning AMI FreetieratgUe S ta Ste OOe/hr inel EC cKargcs • alte tees de utilizare AWS Linux/Unix Ubuntu -b p Aplicația Notebook certfile = u'/home/ubuntu/ssl/cert pem' -► c NotebookApp keyfile = u'/home/ubuntu/ssl/cert key' c IPKernelApp pylab = 'inline' - c Aplicația Notebook ip = ◄ - Servirea de notebook-uri local -► c NotebookApp open browser = False c NotebookApp parola = w 'shal:b a cf ec :b edb fd d e a b eab aa a ' Nu deschideți fereastra implicită a browserului când utilizați notebook-uri Jupyter hash parola, generate mai sus NOTĂ Dacă sunteți nou în utilizarea editorului vi, amintiți-vă că trebuie să apăsați tasta I pentru a putea insera noi caractere în text Când ați terminat editarea, apăsați tasta Esc, tastați :wq și apăsați Enter pentru a închide editorul vi și a salva modificările (:wq înseamnă "write-quit") LA Instalarea Keras Acum aproape totul este gata de utilizare Jupyter Rămâne doar să actualizezi Keras Cadrul Keras este deja instalat în imaginea Amazon VM, dar versiunea sa poate fi învechită Rulați următoarea comandă pe instanța de la distanță: $ sudo pip install keras upgrade B Accesarea Jupyter dintr-un browser pe mașina locală Dacă utilizați Python (caietele Jupyter care însoțesc această carte folosesc Python ), actualizați Keras și cu pip : $ sudo pip install keras upgrade Dacă instanța are un fișier de configurare Keras gata făcut (în timp ce scriu aceste rânduri, fișierul de configurare implicit nu a fost creat în AMI, dar s-ar fi putut schimba multe de atunci), ar trebui șters - pentru orice eventualitate Keras va re-crea fișierul de configurare implicit la prima încercare de pornire Dacă următoarea comandă returnează un mesaj că fișierul nu a fost găsit, ignorați-l: $ rm -f ~/ keras/keras json B Configurarea unei redirecționări porturi locale Dintr-un shell de pe mașina locală (nu de instanța de la distanță), începeți să redirecționați portul local (portul EITTPS) către portul de pe instanța de la distanță: $ sudo ssh -i awsKeys pem -L localport:localcomputer:remoteport remotecomputer În cazul meu, comanda completă, după înlocuirea tuturor parametrilor, a luat următoarea formă: $ sudo ssh -i awsKeys pem -L *■* : : ubuntu@ec - - - - compute-l amazonaws com B Accesarea Jupyter dintr-un browser de pe computerul local Pe instanța de la distanță, clonează depozitul GitEIub care conține blocnotesurile Jupyter pentru această carte: $ git clone https://github com/fchollet/deep-learning-with-python-notebooks git cd deep-learning-with-python-notebooks Porniți Jupyter Notebook cu următoarea comandă pe instanța de la distanță: $ jupyter notebook Anexa B: Rularea notebook-ului Jupyter pe o instanță GPU EC Apoi lansați un browser pe computerul dvs local și deschideți pagina cu adresa locală (https:// ) - datorită redirecționării portului configurat, cererea va fi trimisă către procesul Jupyter Notebook de la distanță Asigurați-vă că includeți HTTPS în bara de adrese, altfel veți primi o eroare SSL În browser ar trebui să apară un avertisment de securitate, așa cum se arată în Fig LA Acest lucru se datorează faptului că certificatul SSL pe care l-ați generat nu este validat de o autoritate de certificare de încredere (la urma urmei, l-ați generat singur) Faceți clic pe butonul Avansat și continuați navigarea Un Mchm nesigur Conexiunea dvs nu este privată Atacatorii ar putea încerca să vă fure informațiile din (de exemplu parole, mesaje sau cărți de credit} AUTORITATEA DE CERT NETERR INVALIDĂ Raport Autpmattoilfy al incidentelor de securitate către Googk AVANSAT Inapoi la siguranta Orez B Avertisment de siguranță; poate fi ignorat Apoi, vi se va solicita parola Jupyter După aceea, panoul de control Jupyter se va deschide în fața ta (Fig B ) jupyter Orez LA Panoul de control Jupyter B Accesarea Jupyter dintr-un browser pe mașina locală Încărcați Chalk • fisier text Poifr Terminal Python Python Orez B Crearea unui nou caiet Jupiter Selectați New> Notebook (Nou> Notepad) pentru a începe (Fig B ) Puteți alege oricare dintre versiunile propuse de Python Asta e tot! Cartea lui François Chollet "Deep Learning in Python a fost cumpărată" pentru ruble pe site-ul web de afaceri deschis hyde François Chollet Învățare profundă în Python Tradus din engleză de A Kiselev Seria "Biblioteca programatorului" Redactor-șef Redactor principal Redactor literar Redactor artistic Redactor de corecturi Aspect Y Sergienko K Tulcea E Samorodskikh S Zamatevskaya N Viktorova, I Timofeeva L Egorova Fabricat in Rusia Producător: OOO Progress Book Locație și adresa actuală: , Rusia, Sankt Petersburg, Sf Radishcheva, , k D, birou Tel : + Data fabricatiei: Nume: producție de carte Termen de valabilitate nelimitat Scutire de taxe - clasificator de produse integral rusesc OK - , - Cărți tipărite profesionale, tehnice și științifice Importator în Belarus: PITER M LLC, , Republica Belarus, Minsk, st Timiryazeva, / , birou , tel /fax: Semnat pentru publicare la Format x / Hartie offset Conv Și l Tiraj Ordin CARTE-MAIL COMANDĂ CARTE DE LA EDITURA "PITER" ESTE POSIBIL ÎN ORICE MOD CONVENIBIL PENTRU DVS : • pe site-ul nostru: www piter com • prin e-mail: books@piter com • la telefon: ( ) - - PUTEȚI ALEGE ORICE METODĂ DE PLATĂ CONVENIENȚĂ PENTRU DVS : Ramburs la livrare cu plata la primire la cel mai apropiat oficiu postal tgș Cu card bancar În timpul comenzii, veți fi redirecționat către un server securizat al operatorului nostru, unde puteți introduce detaliile de plată Bani electronici Acceptăm Yandex Money, Webmoney și portofel Kiwi pentru plată țgg- La orice bancă, prin tipărirea unei chitanțe, care se generează automat după ce plasezi o comandă PUTEȚI ALEGE ORICE METODĂ DE LIVRARE CONVENENTĂ PENTRU DVS : • Coletele sunt trimise prin Poșta Rusă Un sistem bine stabilit ne permite să organizăm livrarea cumpărăturilor dumneavoastră cât mai repede posibil Data plecării achiziției dumneavoastră și data livrării veți fi informate prin e-mail • Puteți aranja livrarea prin curier a comenzii dumneavoastră (mai multe informații găsiți pe site-ul nostru www piter com) • Este posibilă aranjarea livrării unei comenzi prin terminale de colete (adresele terminalelor de colete pot fi găsite pe site-ul nostru www piter com) CÂND PLASEȚI COMANDA, VĂ RUGĂM SĂ INDICĂ: • nume, prenume, patronim, număr de telefon, e-mail; • cod poştal, regiune, raion, localitate, stradă, casă, clădire, apartament; • titlul cărții, autor, numărul de exemplare comandate LIVRARE GRATUITA: • prin curier in Moscova si Sankt Petersburg pentru comenzi de peste de ruble • prin poștă rusă la plata în avans pentru o comandă în valoare de de ruble CASA PZDATELSKPP EDITURA "PITER" oferă literatură profesională, populară și educațională pentru copii Cărțile pot fi comandate în vrac de la birourile noastre RUSIA Sankt Petersburg: stația de metrou Vyborgskaya, pr B Sampsonievsky, a tel /fax: ( ) - - , - - ; e-mail: sales@piter com Moscova: stația de metrou "Elektrozavodskaya", Semenovskaya emb , / , bloc , etajul tel /fax: ( ) - - ; e-mail: sales@msk piter com Voronej: tel : - - ; e-mail: hitsenko@piter com Ekaterinburg: st Toledova, d a; tel /fax: ( ) - - , - - ; e-mail: office@ekat piter com; skype: ekat manager Nijni Novgorod: tel : - - ; e-mail: yashny@yandex ru; skype: yashnyl Rostov-pe-Don: st Ulyanovsk, tel /fax: ( ) - - , - - ; e-mail: peter-ug@rostov piter com Samara: st Molodogvardeyskaya, a, birou tel /fax: ( ) - - , - - ; e-mail: pitvolga@mail ru, pitvolga@samara-ttk ru BIELORUSIA Minsk: st Roza Luxemburg, ; tel /fax: + - - , - - ; e-mail: og@minsk piter com Editura "Peter" invită autorii să coopereze: tel /fax: ( ) - - , ( ) - - ; e-mail: ivanovaa@piter com Informații detaliate aici: http://www piter com/page/avtoru Editura "Piter" invită partenerii comerciali externi sau intermediarii care au acces pe piața externă pentru cooperare: tel /fax: ( ) - - ; e-mail: sales@piter com Comandă cărți pentru universități și biblioteci: tel /fax: ( ) - - , int ; e-mail: uchebnik@piter com Comandați cărți prin poștă: la www piter com; tel : ( ) - - , int ; e-mail: books@piter com Întrebări despre vânzarea cărților electronice: tel : ( ) - - , int ; e-mail: Kuznetsov@piter com 